HBase线上问题处理记录
Region过多
原因
- Region的最大值设置太小
- HBASE升级的时候,配置没有更新
- 意外的配置设置
- 分裂过多
- 预分区不合理
HBASE oldWALs目录过大
最近升级了线上的hbase集群,一切运行良好.这两天发现集群的oldWALs目录一直在增大,与hbase的官方说法不一致.导致线上集群一直在存储报警
[dev@ip-10-12-134-13 ~]$ hadoop fs -du -h /hbase
0 0 /hbase/.tmp
0 0 /hbase/MasterProcWALs
52.9 G 109.5 G /hbase/WALs
103.6 G 207.2 G /hbase/archive
0 0 /hbase/corrupt
56.2 T 112.4 T /hbase/data
42 126 /hbase/hbase.id
7 21 /hbase/hbase.version
3.0 T 5.9 T /hbase/oldWALs
查询了许多资料,都说跟hbase的replication有关.因为我们确实开启了hbase的replication配置.但是根据replication相关资料我确认replication只跟WALs相关,不应该会影响oldWALs,所以进行了研究.
经过验证当我关闭掉replication的时候,master会去删除oldWALs目录下的文件.
但是为了保证线上集群数据的安全,我们必须开启replication,这样oldWALs还是一直会变大.