发布日期: 2018-08-22

文章字数: 2.8k

阅读时长: 12 分

HBASE

1. hbase简介

1.1 什么是hbase

HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。

HBASE的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。

HBASE是Google Bigtable的开源实现，但是也有很多不同之处。比如：Google Bigtable利用GFS作为其文件存储系统，HBASE利用Hadoop HDFS作为其文件存储系统；Google运行MAPREDUCE来处理Bigtable中的海量数据，HBASE同样利用Hadoop MapReduce来处理HBASE中的海量数据；Google Bigtable利用Chubby作为协同服务，HBASE利用Zookeeper作为对应。

1.2 与传统数据库的对比

1、传统数据库遇到的问题：
1）数据量很大的时候无法存储
2）没有很好的备份机制
3）数据达到一定数量开始缓慢，很大的话基本无法支撑

2、HBASE优势：
1）线性扩展，随着数据量增多可以通过节点扩展进行支撑
2）数据存储在hdfs上，备份机制健全
3）通过zookeeper协调查找数据，访问速度块。

1.3hbase集群中的角色

1、一个或者多个主节点，Hmaster

2、多个从节点，HregionServer

2.habse安装

2.1. hbase安装
2.1.1. 上传
用工具上传

 2.1.2. 解压
su – hadoop
tar -zxvf hbase-0.94.6.tar.gz

2.1.3. 重命名
mv hbase-0.94.6 hbase

2.1.4. 修改环境变量(每台机器都要执行)
su – root
vi /etc/profile
添加内容：
export HBASE_HOME=/home/hadoop/hbase
export PATH=$PATH:$HBASE_HOME/bin
source /etc/proflie
su - hadoop

2.1.5. 修改配置文件
上传配置文件

 2.1.6. 分发到其他节点
scp -r /home/hadoop/hbase hadoop@slave1:/home/hadoop/
scp -r /home/hadoop/hbase hadoop@slave2:/home/hadoop/
scp -r /home/hadoop/hbase hadoop@slave3:/home/hadoop/

2.1.7. 启动
注意：启动hbase之前，必须保证hadoop集群和zookeeper集群是可用的。
start-hbase.sh

2.1.8. 监控
    1、 进入命令行
hbase shell
    2、 页面监控
http://master:60010/

3.hbase数据模型

3.1hbase数据模型

3.1.1 Row Key

与nosql数据库们一样,row key是用来检索记录的主键。访问HBASE table中的行，只有三种方式：
1.通过单个row key访问
2.通过row key的range（正则）
3.全表扫描

Row key行键 (Row key)可以是任意字符串(最大长度 是 64KB，实际应用中长度一般为 10-100bytes)，在HBASE内部，row key保存为字节数组。存储时，数据按照Row key的字典序(byte order)排序存储。设计key时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。(位置相关性)

3.1.2 Columns Family

列簇 ：HBASE表中的每个列，都归属于某个列族。列族是表的schema的一部 分(而列不是)，必须在使用表之前定义。列名都以列族作为前缀。

例如 courses:history，courses:math都属于courses 这个列族。

3.1.3 Cell

由{row key, columnFamily, version} 唯一确定的单元。cell中 的数据是没有类型的，全部是字节码形式存贮。
关键字：无类型、字节码

3.1.4 Time Stamp

HBASE 中通过rowkey和columns确定的为一个存贮单元称为cell。每个 cell都保存 着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由HBASE(在数据写入时自动 )赋值，此时时间戳是精确到毫秒 的当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版 本冲突，就必须自己生成具有唯一性的时间戳。每个 cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。

为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担，HBASE提供 了两种数据版本回收方式。一是保存数据的最后n个版本，二是保存最近一段 时间内的版本（比如最近七天）。用户可以针对每个列族进行设置。

4.hbase命令

4.1命令的进退

1、hbase提供了一个shell的终端给用户交互
#$HBASE_HOME/bin/hbase shell 
2、如果退出执行quit命令
#$HBASE_HOME/bin/hbase shell
…… 
>quit

4.2 hbase命令

名称   命令表达式
创建表  create '表名', '列族名1','列族名2','列族名N'
查看所有表  list
描述表     describe  ‘表名’
判断表存在    exists  '表名'
判断是否禁用启用表   is_enabled '表名'    is_disabled ‘表名’
添加记录   put  ‘表名’, ‘rowKey’, ‘列族 : 列‘  ,  '值'
查看记录rowkey下的所有数据     get  '表名' , 'rowKey'
查看表中的记录总数   count  '表名'
获取某个列族   get '表名','rowkey','列族'
获取某个列族的某个列   get '表名','rowkey','列族：列’
删除记录   delete  ‘表名’ ,‘行名’ , ‘列族：列'
删除整行  deleteall '表名','rowkey'
删除一张表   先要屏蔽该表，才能对该表进行删除   第一步 disable ‘表名’ ，第二步  drop '表名'
清空表    truncate '表名'
查看所有记录  scan "表名"  
查看某个表某个列中所有数据   scan "表名" , {COLUMNS=>'列族名:列名'}
更新记录   就是重写一遍，进行覆盖，hbase没有修改，都是追加

5.hbase依赖zookeeper

    1、 保存Hmaster的地址和backup-master地址
hmaster：
    a) 管理HregionServer
    b) 做增删改查表的节点
    c) 管理HregionServer中的表分配

    2、 保存表-ROOT-的地址
hbase默认的根表，检索表。

    3、 HRegionServer列表
表的增删改查数据。
和hdfs交互，存取数据。

6.hbase开发

6.1 配置

HBaseConfiguration
包：org.apache.hadoop.hbase.HBaseConfiguration
作用：通过此类可以对HBase进行配置
用法实例： 
Configuration config = HBaseConfiguration.create();
说明： HBaseConfiguration.create() 默认会从classpath 中查找 hbase-site.xml 中的配置信息，初始化 Configuration。

使用方法:
static Configuration config = null;
static {
     config = HBaseConfiguration.create();
     config.set("hbase.zookeeper.quorum", "slave1,slave2,slave3");
     config.set("hbase.zookeeper.property.clientPort", "2181");
}

6.2 表管理类

HBaseAdmin
包：org.apache.hadoop.hbase.client.HBaseAdmin
作用：提供接口关系HBase 数据库中的表信息

用法：
HBaseAdmin admin = new HBaseAdmin(config);

6.2表描述类

HTableDescriptor
包：org.apache.hadoop.hbase.HTableDescriptor
作用：HTableDescriptor 类包含了表的名字以及表的列族信息
          表的schema（设计）
用法：
HTableDescriptor htd =new HTableDescriptor(tablename);
htd.addFamily(new HColumnDescriptor(“myFamily”));

6.3列族的描述类

HColumnDescriptor
包：org.apache.hadoop.hbase.HColumnDescriptor
作用：HColumnDescriptor 维护列族的信息

用法：
htd.addFamily(new HColumnDescriptor(“myFamily”));

6.4 创建表的操作

CreateTable（一般我们用shell创建表）
static Configuration config = null;
static {
     config = HBaseConfiguration.create();
     config.set("hbase.zookeeper.quorum", "slave1,slave2,slave3");
     config.set("hbase.zookeeper.property.clientPort", "2181");
}

HBaseAdmin admin = new HBaseAdmin(config);
HTableDescriptor desc = new HTableDescriptor(tableName);
HColumnDescriptor family1 = new HColumnDescriptor(“f1”);
HColumnDescriptor family2 = new HColumnDescriptor(“f2”);
desc.addFamily(family1);
desc.addFamily(family2);
admin.createTable(desc);

6.5删除表

HBaseAdmin admin = new HBaseAdmin(config);
admin.disableTable(tableName);
admin.deleteTable(tableName);

6.6创建一个表的类

HTable
包：org.apache.hadoop.hbase.client.HTable
作用：HTable 和 HBase 的表通信
用法：
// 普通获取表
 HTable table = new HTable(config,Bytes.toBytes(tablename);
// 通过连接池获取表
Connection connection = ConnectionFactory.createConnection(config);
HTableInterface table = connection.getTable(TableName.valueOf("user"));

6.7插入单条数据

Put
包：org.apache.hadoop.hbase.client.Put
作用：插入数据
用法：
Put put = new Put(row);
p.add(family,qualifier,value);
说明：向表 tablename 添加 “family,qualifier,value”指定的值。

示例代码：
Connection connection = ConnectionFactory.createConnection(config);
HTableInterface table = connection.getTable(TableName.valueOf("user"));
Put put = new Put(Bytes.toBytes(rowKey));
put.add(Bytes.toBytes(family), Bytes.toBytes(qualifier),Bytes.toBytes(value));
table.put(put);

6.8批量插入数据

批量插入
List<Put> list = new ArrayList<Put>();
Put put = new Put(Bytes.toBytes(rowKey));//获取put，用于插入
put.add(Bytes.toBytes(family), Bytes.toBytes(qualifier),Bytes.toBytes(value));//封装信息
list.add(put);
table.put(list);//添加记录

6.9 删除数据

Delete
包：org.apache.hadoop.hbase.client.Delete
作用：删除给定rowkey的数据
用法：
Delete del= new Delete(Bytes.toBytes(rowKey));
table.delete(del);
代码实例
Connection connection = ConnectionFactory.createConnection(config);
HTableInterface table = connection.getTable(TableName.valueOf("user"));
Delete del= new Delete(Bytes.toBytes(rowKey));
table.delete(del);

6.10 单条查询

Get
包：org.apache.hadoop.hbase.client.Get
作用：获取单个行的数据
用法：
HTable table = new HTable(config,Bytes.toBytes(tablename));
Get get = new Get(Bytes.toBytes(row));
Result result = table.get(get);
说明：获取 tablename 表中 row 行的对应数据

代码示例：
Connection connection = ConnectionFactory.createConnection(config);
HTableInterface table = connection.getTable(TableName.valueOf("user"));
Get get = new Get(rowKey.getBytes());
Result row = table.get(get);
for (KeyValue kv : row.raw()) {
    System.out.print(new String(kv.getRow()) + " ");
    System.out.print(new String(kv.getFamily()) + ":");
    System.out.print(new String(kv.getQualifier()) + " = ");
    System.out.print(new String(kv.getValue()));
    System.out.print(" timestamp = " + kv.getTimestamp() + "\n");
}

6.11 批量查询

ResultScanner
包：org.apache.hadoop.hbase.client.ResultScanner
作用：获取值的接口
用法：
ResultScanner scanner = table.getScanner(scan);
For(Result rowResult : scanner){
        Bytes[] str = rowResult.getValue(family,column);
}
说明：循环获取行中列值。

代码示例：
Connection connection = ConnectionFactory.createConnection(config);
HTableInterface table = connection.getTable(TableName.valueOf("user"));
Scan scan = new Scan();
scan.setStartRow("a1".getBytes());
scan.setStopRow("a20".getBytes());
ResultScanner scanner = table.getScanner(scan);
for (Result row : scanner) {
    System.out.println("\nRowkey: " + new String(row.getRow()));
    for (KeyValue kv : row.raw()) {
         System.out.print(new String(kv.getRow()) + " ");
         System.out.print(new String(kv.getFamily()) + ":");
         System.out.print(new String(kv.getQualifier()) + " = ");
         System.out.print(new String(kv.getValue()));
         System.out.print(" timestamp = " + kv.getTimestamp() + "\n");
    }
}

6.3 hbase过滤器

FilterList 代表一个过滤器列表，可以添加多个过滤器进行查询，多个过滤器之间的关系有：
与关系（符合所有）：FilterList.Operator.MUST_PASS_ALL  
或关系（符合任一）：FilterList.Operator.MUST_PASS_ONE    

使用方法：
FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ONE);   
Scan s1 = new Scan();  
 filterList.addFilter(new SingleColumnValueFilter(Bytes.toBytes(“f1”),  Bytes.toBytes(“c1”),  CompareOp.EQUAL,Bytes.toBytes(“v1”) )  );  
filterList.addFilter(new SingleColumnValueFilter(Bytes.toBytes(“f1”),  Bytes.toBytes(“c2”),  CompareOp.EQUAL,Bytes.toBytes(“v2”) )  );  
 // 添加下面这一行后，则只返回指定的cell，同一行中的其他cell不返回  
 s1.addColumn(Bytes.toBytes(“f1”), Bytes.toBytes(“c1”));  
 s1.setFilter(filterList);  //设置filter
 ResultScanner ResultScannerFilterList = table.getScanner(s1);  //返回结果列表

6.3.2过滤器的种类

过滤器的种类：
列植过滤器—SingleColumnValueFilter 
      过滤列植的相等、不等、范围等

列名前缀过滤器—ColumnPrefixFilter 
      过滤指定前缀的列名

多个列名前缀过滤器—MultipleColumnPrefixFilter
       过滤多个指定前缀的列名

rowKey过滤器—RowFilter
      通过正则，过滤rowKey值。

6.3.3列植过滤器—SingleColumnValueFilter

SingleColumnValueFilter 列值判断
相等 (CompareOp.EQUAL ), 
不等(CompareOp.NOT_EQUAL),
范围 (e.g., CompareOp.GREATER)…………
下面示例检查列值和字符串'values' 相等...
SingleColumnValueFilter f = new  SingleColumnValueFilter(
            Bytes.toBytes("cFamily")                              Bytes.toBytes("column"),             CompareFilter.CompareOp.EQUAL,
        Bytes.toBytes("values"));
s1.setFilter(f);
注意：如果过滤器过滤的列在数据表中有的行中不存在，那么这个过滤器对此行无法过滤。

6.3.4 列名前缀过滤器—ColumnPrefixFilter

过滤器—ColumnPrefixFilter 
ColumnPrefixFilter 用于指定列名前缀值相等
ColumnPrefixFilter f = new ColumnPrefixFilter(Bytes.toBytes("values"));
s1.setFilter(f);

6.3.5 多个列值前缀过滤器—MultipleColumnPrefixFilter

MultipleColumnPrefixFilter 和 ColumnPrefixFilter 行为差不多，但可以指定多个前缀
byte[][] prefixes = new byte[][] {Bytes.toBytes("value1"),Bytes.toBytes("value2")};
Filter f = new MultipleColumnPrefixFilter(prefixes);
s1.setFilter(f);

6.3.6rowKey过滤器—RowFilter

RowFilter 是rowkey过滤器
通常根据rowkey来指定范围时，使用scan扫描器的StartRow和StopRow方法比较好。
Filter f = new RowFilter(CompareFilter.CompareOp.EQUAL, new RegexStringComparator("^1234")); //匹配以1234开头的rowkey
s1.setFilter(f);

邓滔

http://dtbox.com/2018/08/22/hbase-xue-xi-yi/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源邓滔 !

hadoop 大数据学习 hbase

hbase学习二

2018-08-22 大数据学习 hbase

hadoop 大数据学习 hbase

sqoop学习

2018-08-21 大数据学习 sqoop

hadoop 大数据学习 sqoop

hbase学习一

HBASE

1. hbase简介

1.1 什么是hbase

1.2 与传统数据库的对比

1.3hbase集群中的角色

2.habse安装

3.hbase数据模型

3.1hbase数据模型

3.1.1 Row Key

3.1.2 Columns Family

3.1.3 Cell

3.1.4 Time Stamp

4.hbase命令

4.1命令的进退

4.2 hbase命令

5.hbase依赖zookeeper

6.hbase开发

6.1 配置

6.2 表管理类

6.2表描述类

6.3列族的描述类

6.4 创建表的操作

6.5删除表

6.6创建一个表的类

6.7插入单条数据

6.8批量插入数据

6.9 删除数据

6.10 单条查询

6.11 批量查询

6.3 hbase过滤器

6.3.1 FilterList

6.3.2过滤器的种类

6.3.3列植过滤器—SingleColumnValueFilter

6.3.4 列名前缀过滤器—ColumnPrefixFilter

6.3.5 多个列值前缀过滤器—MultipleColumnPrefixFilter

6.3.6rowKey过滤器—RowFilter

hbase学习一

HBASE

1. hbase简介

1.1 什么是hbase

1.2 与传统数据库的对比

1.3hbase集群中的角色

2.habse安装

3.hbase数据模型

3.1hbase数据模型

3.1.1 Row Key

3.1.2 Columns Family

3.1.3 Cell

3.1.4 Time Stamp

4.hbase命令

4.1命令的进退

4.2 hbase命令

5.hbase依赖zookeeper

6.hbase开发

6.1 配置

6.2 表管理类

6.2表描述类

6.3列族的描述类

6.4 创建表的操作

6.5删除表

6.6创建一个表的类

6.7插入单条数据

6.8批量插入数据

6.9 删除数据

6.10 单条查询

6.11 批量查询

6.3 hbase过滤器

6.3.1 FilterList

6.3.2过滤器的种类

6.3.3列植过滤器—SingleColumnValueFilter

6.3.4 列名前缀过滤器—ColumnPrefixFilter

6.3.5 多个列值前缀过滤器—MultipleColumnPrefixFilter

6.3.6rowKey过滤器—RowFilter

你的赏识是我前进的动力