!guide_close_btn!

hbase bulkload导入后region大量split

新人帖[复制链接]
发表于 : 2020-3-30 11:32:10 最新回复:2020-03-30 14:15:29
161 2
  求助帖: (未解决)
客户端bulkload入数据到一张新建的预分区为200的hbase表后,region大量的split和MinorCompaction,查看日志发现split的region未到30g的阈值,hbase集群split策略是ConstantSizeRegionSplitPolicy,以一个region中最大store的大小大于设置阈值(hbase.hregion.max.filesize=30g)之后才会触发切分,实际是rgion达到6g左右就split了,这样导致应用查询超时,请问为啥未到阈值就split?
  • x
  • 常规:

点评 回复

跳转到指定楼层
sunajing
sunajing  版主 发表于 2020-3-30 11:54:16 已赞(0) 赞(0)

检查一下是否加载的数据量非常大,并且没有均匀分布在多个region呢?
  • x
  • 常规:

点评 回复

hadoop2019
hadoop2019   发表于 2020-3-30 14:15:29 已赞(0) 赞(0)

sunajing 发表于 2020-03-30 11:54检查一下是否加载的数据量非常大,并且没有均匀分布在多个region呢?

bulkload的数据量在1t左右,每天导入前会drop表然后在create,然后再bulkload,用hadoop fs -du 查看region大小,大部分在3~5g左右,少数几个在10g左右,bulkload结束后看的日志显示有5个region split了,查看split后的子region,大小都在2-3g左右
  • x
  • 常规:

点评 回复

发表回复
您需要登录后才可以回帖 登录 | 注册

警告 内容安全提示:尊敬的用户您好,为了保障您、社区及第三方的合法权益,请勿发布可能给各方带来法律风险的内容,包括但不限于政治敏感内容,涉黄赌毒内容,泄露、侵犯他人商业秘密的内容,侵犯他人商标、版本、专利等知识产权的内容,侵犯个人隐私的内容等。也请勿向他人共享您的账号及密码,通过您的账号执行的所有操作,将视同您本人的行为,由您本人承担操作后果。详情请参看“隐私声明
如果附件按钮无法使用,请将Adobe Flash Player 更新到最新版本!

登录参与交流分享

登录

华为企业互动社区
华为企业互动社区