[大数据] Hbase工作原理分析及优化

步骤

原理

计算

值

RS总内存

系统总内存的 2/3

128G/3*2

80G

combinedBlockCache

读缓存设置为整个RS内存的70%

80G*70%

56G

blockcache

主要缓存数据块元数据，数据量相对较小。设置为整个读缓存的10%

56G*10%

bucketcache

主要缓存用户数据块，数据量相对较大。设置为整个读缓存的90%

56G*90%

50G

memstore

写缓存设置为jvm_heap的60%

30G*60%

18G

jvm_heap

rs总内存-堆外内存

80G-50G

30G

<property> <name>hbase.bucketcache.combinedcache.enabled</name> <value>true</value>#必须设置为true </property> <property> <name>hbase.bucketcache.ioengine</name> <value>offheap</value> #同时作为master的rs要用heap </property> <property> <name>hbase.bucketcache.size</name> <value>50176</value> #单位MB。这个值至少要比bucketcache小1G，作为master的rs用heap，那么这里要填<1的值作为从heap中分配给bucketcache的百分比 </property> <property> <name>hbase.regionserver.global.memstore.size</name> <value>0.60</value> #heap减小了,那么heap中用于memstore的百分比要增大才能保证用于memstore的内存和原来一样 </property> <property> <name>hfile.block.cache.size</nname> <value>0.20</value> #使用了bucketcache作为blockcache的一部分,那么heap中用于blockcache的百分比可以减小 </property>

1.可以选择的有NONE, GZIP, SNAPPY, 等等 2.指定压缩方式：create ’test', {NAME => ’cf', COMPRESSION => 'SNAPPY’}} 3.节省磁盘空间 4.压缩针对的是整个块，对get或scan不太友好 5.缓存块的时候不会使用压缩，除非指定hbase.block.data.cachecompressed = true，这样可以缓存更多的块，但是读取数据时候，需要进行解压缩

1. 不等同于HDFS block size 2. 指定BLOCKSIZE属性 create ‘test′,{NAME => ‘cf′, BLOCKSIZE => ’4096'} 3.默认64KB,对Scan和Get等同的场景比较友好 4.增加该值有利于scan 5.减小该值有利于get

1.每个节点<=6TB的磁盘空间 2.regionserver heap 约等于磁盘大小/200（上面的比例公式） 3.由于hbase属于cpu密集型，所以较多的cpu core数量更适合 4.网卡带宽和磁盘吞吐量的匹配值：（背景：磁盘使用传统HDD，I/O 100M/s） CASE1：1GE的网卡，配备24块磁盘，像这样的搭配是不太理想的，因为1GE的网卡流量等于125M/s，而24块磁盘的吞吐量大概2.4GB/s，网卡成为瓶颈 CASE2：10GE的网卡，配备24块磁盘，比较理想 CASE3：1GE的网卡，配置4-6块磁盘，也是比较理想的

1.hbase.client.write.buffer：默认为2M，写缓存大小，推荐设置为5M，单位是字节，当然越大占用的内存越多，此外测试过设为10M下的入库性能，反而没有5M好hbase.client.write.buffer：默认为2M，写缓存大小，推荐设置为5M，单位是字节，当然越大占用的内存越多，此外测试过设为10M下的入库性能，反而没有5M好

2.hbase.client.pause：默认是1000(1s),如果你希望低延时的读或者写，建议设为200，这个值通常用于失败重试，region寻找等hbase.client.pause：默认是1000(1s),如果你希望低延时的读或者写，建议设为200，这个值通常用于失败重试，region寻找等

3.hbase.client.retries.number：默认值是10，客户端最多重试次数,可以设为11，结合上面的参数，共重试时间71shbase.client.retries.number：默认值是10，客户端最多重试次数,可以设为11，结合上面的参数，共重试时间71s

4.hbase.ipc.client.tcpnodelay：默认是false，建议设为true，关闭消息缓冲hbase.ipc.client.tcpnodelay：默认是false，建议设为true，关闭消息缓冲

5.hbase.client.scanner.caching：scan缓存，默认为1，避免占用过多的client和rs的内存，一般1000以内合理，如果一条数据太大，则应该设置一个较小的值，通常是设置业务需求的一次查询的数据条数 hbase.client.scanner.caching：scan缓存，默认为1，避免占用过多的client和rs的内存，一般1000以内合理，如果一条数据太大，则应该设置一个较小的值，通常是设置业务需求的一次查询的数据条数 如果是扫描数据对下次查询没有帮助，则可以设置scan的setCacheBlocks为false，避免使用缓存；

6.table用完需关闭，关闭scannertable用完需关闭，关闭scanner

7.限定扫描范围：指定列簇或者指定要查询的列，指定startRow和endRow限定扫描范围：指定列簇或者指定要查询的列，指定startRow和endRow

8.使用Filter可大量减少网络消耗使用Filter可大量减少网络消耗

9.通过java多线程入库和查询，并控制超时时间。后面会共享下我的hbase单机多线程入库的代码通过java多线程入库和查询，并控制超时时间。后面会共享下我的hbase单机多线程入库的代码

10.建表注意事项：建表注意事项

合理的设计rowkey
进行预分区
开启bloomfilter

1.zookeeper.session.timeout：默认值3分钟，不可配置太短，避免session超时，hbase停止服务zookeeper.session.timeout：默认值3分钟，不可配置太短，避免session超时，hbase停止服务

2.zookeeper数量：建议5个或者7个节点。给每个zookeeper 4G左右的内存，最好有独立的磁盘。zookeeper数量：建议5个或者7个节点。给每个zookeeper 4G左右的内存，最好有独立的磁盘。

4.设置操作系统的swappiness为0，则在物理内存不够的情况下才会使用交换分区，避免GC回收时会花费更多的时间，当超过zk的session超时时间则会出现regionserver宕机的误报设置操作系统的swappiness为0，则在物理内存不够的情况下才会使用交换分区，避免GC回收时会花费更多的时间，当超过zk的session超时时间则会出现regionserver宕机的误报

1.dfs.name.dir：namenode的数据存放地址，可以配置多个，位于不同的磁盘并配置一个nfs远程文件系统，这样namenode的数据可以有多个备份dfs.name.dir：namenode的数据存放地址，可以配置多个，位于不同的磁盘并配置一个nfs远程文件系统，这样namenode的数据可以有多个备份

4.dfs.datanode.max.xcievers：datanode同时处理文件的上限，默认为256，可以设置为8192dfs.datanode.max.xcievers：datanode同时处理文件的上限，默认为256，可以设置为8192

[大数据]Hbase工作原理分析及优化