海量数据下HBase的读性能

xiyouiOS 2011-08-04

这段时间刚做完一个hbase项目，存储千亿规模的数据，12台dell，5小时完成扫库。

这里主要是对hbase的数据本地化机制作了优化，本文不对细节作描述。

在后期使用的过程中，使用方发现hbase的随机读性能出现了较大的下降，经常出现单个GET请求花费3-5秒的现象。这个事情困扰了我很久，因为从我的实验环境上是不可复现的。

实验环境和线上环境的主要区别是数据量和写压力：

实验环境百亿规模的数据，线上是千亿

实验环境基本上没有写压力，而线上随时有较大的写压力。

关于原因做了很多猜测，但是后来都被实验否定了，比如以为hdfs的性能不够，以为MetaRegion的性能问题等等。

经过一段时间的跟踪，终于发现问题出现在BloomFilter上，hbase的bloomfilter是惰性加载的，在写压力比较大的情况下，会有不停的compact并产生storefile，那么新的storefile是不会马上将bloomfilter加载到内存的，等到读请求来的时候才加载。

这样问题就来了，第一，我们的storefile设置的比较大，maxsize为2G，这会导致bloomfilter也比较大；第二，系统的读写压力都比较大。两个因素加起来，就导致了前边所说的问题。

解决办法：

1)去掉bloomfilter，我们的数据太大了，这个东西的好处看起来还不如不加好，瞬间就能搞定。

2)将bloomfilter改成激进的方式加载，这个要安排下，恩。

: xiyouiOS

相关推荐

HBase/TiDB都在用的数据结构：LSM Tree，不得了解一下？

LSM Tree广泛应用在HBase，TiDB等诸多数据库和存储引擎上，我们先来看一下它的一些应用：。这么牛X的名单，你不想了解下LSM Tree吗？装X之前，我们先来了解一些基本概念。设计数据存储系统可能需要考虑的一些问题有：ACID，RUM。读性能体现

晨曦之星 0喜欢 / 0评论 2020-08-14

hbase 基础 —— 架构

典型的主从架构。其中 RegionServers 负责与客户端的交互，访问数据 HMaster 负责 Region 分配，DDL 操作。hbase table 根据 RowKey 划分成多个 Region，Region 包含所划分范围的所有行数据。Regi

lwb 0喜欢 / 0评论 2020-07-26

hdfs、hive、hbase的搭建总结

-- 完全分布式文件系统的名称：schema ip port -->. -- 分布式文件系统的其他路径的所依赖的一个基础路径，完全分布式不能使用默认值，因为临路径不安全，linux系统在重启时，可能会删除此目录下的内容-->. --

eternityzzy 0喜欢 / 0评论 2020-07-19

hbase 建表数据类型

下面几个shell 命令在后续的hbase 操作中可以起到很到的作用，且主要体现在建表的过程中，看下面几个create 属性1、BLOOMFILTER 默认是NONE 是否使用布隆过虑使用何种方式布隆过滤可以每列族单独启用。对ROW，行键的哈希在每次插入行

大而话之BigData 0喜欢 / 0评论 2020-06-16

Hbase常见问题

Hbase的数据是按照字典排序的，当大量连续的rowkey集中写到个别的region，各个region之间实际分布不均衡；创建表已经提前预分区，但是设计的rowkey没有规律可循。随机数+业务主键，如果更好的让最近的数据get到，可以加上时间戳；加盐之后的

ITwangnengjie 0喜欢 / 0评论 2020-06-14

hue集成hbase

# Comma-separated list of HBase Thrift servers for clusters in the format of ‘‘.# If using Kerberos we assume GSSAPI SASL, not P

gengwx00 0喜欢 / 0评论 2020-06-11

HBase安装部署

在slave01上运行jps，确认DataNode, NodeManager进程启动。分别在master，slave01，slave02上启动zookeeper. 查看解压后HBase目录中包含的文件。修改JAVA环境变量，去除export JAVA_HO

大而话之BigData 0喜欢 / 0评论 2020-06-10

在hadoop集群下启动hbase的方法

start-all.sh(前提是在bashrc中配置export PATH=$PATH:$HADOOP_HOME/sbin export PATH=$PATH:$HAOOP_HOME/bin)

鲸鱼写程序 0喜欢 / 0评论 2020-06-08

Spark读取Hbase中的数据

大家可能都知道很熟悉Spark的两种常见的数据读取方式：、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如下：。其实对文件来说，Spark支持Hadoop所支持的所有文件类型和文件存放位置。过往记忆博客，专注于hadoop

needyit 0喜欢 / 0评论 2020-06-04

Flume-0.9.4和Hbase-0.96整合

Flume里面自带了Hbase sink，可以直接调用啊，还用说么？这是因为Flume-0.9.4和Hbase-0.96整合比Flume-1.4.0和Hbase-0.96整合麻烦多了！不是随便几个配置就能搞定的，里面涉及到修改Flume和Hadoop的源码

strongyoung 0喜欢 / 0评论 2020-06-04

HBase的安装部署

　　副本数为1，取消权限。在启动前，先进行namenode格式化。这样hadoop就安装完成了。配置不使用自带的Zookeeper. # Tell HBase whether it should manage it‘s own instance of Z

WeiHHH 0喜欢 / 0评论 2020-05-30

Spark读取Mysql，Redis，Hbase数据（一）

"select * from TBLS where TBL_ID >= ?

needyit 0喜欢 / 0评论 2020-05-10

Spark 与 JDBC、Hbase之间的交互

"select id, name from user where id >= ?1,//对应第一个？10,//对应第二个？

ITwangnengjie 0喜欢 / 0评论 2020-05-09

1，pinpoint全链路监控

Pinpoint-Collector和Pinpoint-Web最好安装在一个机器上。在结尾修改成如下，这里我们指定Hbase本地来存储数据，生产环境将数据建议存入HDFS中。这个脚本不能直接wget，因为wget下载下来的是一个网页。执行pinpoint提

gengwx00 0喜欢 / 0评论 2020-05-08

HBase与Hive

用于数据分析、清洗：Hive适用于离线的数据分析和清洗，延迟较高。基于HDFS、MapReduce：Hive存储的数据依旧在DataNode上，编写的HQL语句终将是转换为MapReduce代码执行。操作Hive可能对HBase产生影响，所以Hive需要持

gengwx00 0喜欢 / 0评论 2020-05-09

HBase与MapReduce交互

飞鸿踏雪0 0喜欢 / 0评论 2020-05-07

HBase原理总结

HBase分布式数据库，面向列存储，支持实时、随机读写。HDFS 为 Hbase 提供可靠的底层数据存储服务，MapReduce 为 Hbase 提供高性能的计算能力，Zookeeper 为 Hbase 提供。稳定服务和Failover机制，因此，Hbas

大而话之BigData 0喜欢 / 0评论 2020-05-06

Hbase scan 查询命令大全，前缀，模糊，正则

Hbase scan 查询例子数据?https://java-er.com/blog/hbase-scan-all-command/stu 学生列族 base 存储学生姓名，身高基本信息列族 score 存储成绩c1_s1 c1 班级 s1 学生编号。Hb

Buerzhu 0喜欢 / 0评论 2020-05-01

Hbase API 创建表错误记录 for Docker 容器部署集群

最终我们看到成功了，然后我们是三台Docker容器，我们为了后面的不会再次出现这个错误，我们把 salve2 节点的 hbase 的HRegionServer机器主机名。应用程序对数据的读写操作都是通过和HRegion通信完成，16020端口是Region

gengwx00 0喜欢 / 0评论 2020-04-30

hbase设置ttl后出现坏块，重启后master abort 问题梳理

　　可以看到，问题是由于把某个region进行transit过程中出现了错。　　造成的原因很可能就是重新设置了ttl造成数据块中造成了部分损坏。　　在此版本中，当region在transition过程中出现了错误，但并不会影响master的正常启动。

gengwx00 0喜欢 / 0评论 2020-04-29

HBase可用性分析与高可用实践

HBase作为一个分布式存储的数据库，它是如何保证可用性的呢？对于分布式系统的CAP问题，它是如何权衡的呢？最重要的是，我们在生产实践中，又应该如何保证HBase服务的高可用呢？下面我们来仔细分析一下。CAP是指一致性、可用性和分区容错性。一致性指更新操作

loviezhang 0喜欢 / 0评论 2020-04-26

HBase入门配置

5.启动RegionServer、Master，只能在指定master节点启动master服务

大而话之BigData 0喜欢 / 0评论 2020-04-26

centos7安装hbase集群

首先，要有一个HDFS集群，并正常运行； regionserver应该跟hdfs中的datanode在一起。-- 指定hbase是分布式的 -->. -- 指定zk的地址，多个用“,”分割 -->

ITwangnengjie 0喜欢 / 0评论 2020-04-18

全方位认识HBase：一个值得拥有的NoSQL数据库（一）

可对于HBase，我确实是带着某些感情在的。今日突然萌生了一个生趣的想法，想抛开技术的视角，从情感的角度，像写小说一样，写写这位老朋友，这可能会有点滑稽吧，不过我觉得很放松。《全方位认识HBase：一个值得拥有的NoSQL数据库》：从今天起，我们就暂且认为

chibangyuxun 0喜欢 / 0评论 2020-04-18

HBase集群搭建

将hadoop的hdfs-site.xml和core-site.xml配置文件软连接到HBase中，或者复制到HBase/conf下。如果出现下面问题，是zookeeper没有文件写入权限的原因。将zookeeper目录权限改为可写入。

gengwx00 0喜欢 / 0评论 2020-04-16

HBase和MapReduce

Apache MapReduce 是一个用于分析大量数据的软件框架。MapReduce 本身超出了本文档的范围。MapReduce 版本2现在是 YARN 的一部分。本章讨论在 HBase 中对数据使用 MapReduce 时需要采取的具体配置步骤。另外，

strongyoung 0喜欢 / 0评论 2020-04-11

HBase 版本数量

HBase 通过 HColumnDescriptor 为每个列族配置要存储的最大行数版本。这是一个重要的参数，因为如数据模型部分所述，HBase 也没有覆盖行的值，而是按时间存储不同的值。在重要的压缩过程中删除多余的版本。最大版本的数量可能需要根据应用程序

大而话之BigData 0喜欢 / 0评论 2020-04-11

HBase模式案例研究列表数据

我们正在研究如何在 HBase 中存储大量（每用户）列表数据，并且我们试图弄清楚哪种访问模式最有意义。每行将包含多个值。正如你注意到的那样，手动分页版本有很多复杂性，例如必须跟踪每个页面中有多少内容，如果插入新值，则重新洗牌等。在极高的吞吐量下它可能有一些

鲸鱼写程序 0喜欢 / 0评论 2020-04-10

HBase模式案例日志数据和时间序列数据

假设正在收集以下数据元素。我们可以将它们存储在名为 LOG_DATA 的 HBase 表中，但 rowkey 会是什么呢？rowkey [timestamp][hostname][log-event] 受单调递增的行键/时间戳数据中描述的单调增长 rowk

needyit 0喜欢 / 0评论 2020-04-10

聊聊MySQL、HBase、ES的特点和区别

很少写技术博客，一是觉得自己技术有限，怕误人子弟；二是文笔较差，比较排斥写作之类的工作。话说不锻炼，哪会有进步呢，因为陌生而抵触，往往会陷入恶性循环，生活中其他事又何尝不是这样呢。明日复明日，明日何其多，时间不等人，有想法就要立马行动。

lclcsmart 0喜欢 / 0评论 2020-04-07

利用hive-hbase表做hive表快速入库hbase功能,纬度表的查询

有个需求是纬度表需要秒出数据,首先表刚好也是1-1批对的情况,首先想到了利用hbase的索引机制。虽然网上有很多直接建立hive表,自动创建hbase表的例子,但是这种情况不能进行hbase表的region预分区,导致热点问题比较严重。删除hbase表hi

victorzhzh 0喜欢 / 0评论 2020-03-26

Hbase架构原理解析

HBase 的架构似乎也是 master-slave 架构，和 HDFS 有点像，HMaster 是用来管理集群，HRegionServer 是真正存储数据的地方。HBase 在数据查询和写入的时候，其实并不是像 HDFS 那样询问 HMaster。在 H

lwb 0喜欢 / 0评论 2020-03-26

Hbase 表与Hive 表的映射操作

--这里字段要跟上面的保持一致，意思为deptid作为rowkey，deptname作为info列族中的deptname列。建表时，可以指定ROW FORMAT 和 STORED AS. 而是存储在其他的数据库中。STORED BY 代表，在向表中读写数据

zlsdmx 0喜欢 / 0评论 2020-03-23

Atlas（元数据管理）从扫盲到和Hive、HBase、Kafka、Flink等集成开发

企业数据管理的内容及范畴通常包括交易数据、主数据以及元数据。

nimeijian 0喜欢 / 0评论 2020-03-05

HBase简单介绍

　　HBase是Hadoop的一个子项目，用JAVA语言实现，是建立在HDFS的基础上的非关系型分布式数据库，目标是通过水平扩展的方式处理非常庞大的表。值得注意的是，HBase并非结构化数据库，而是介于非关系型数据库与关系型数据库之间，仅能存储非结构化数据

大而话之BigData 0喜欢 / 0评论 2020-02-29

#IT明星不是梦#Hadoop整合Hbase案例详解

*要求：读取HBase当中user这张表的f1:name、f1:age数据，将数据写入到另外一张user2表的f1列族里面去==****. put ‘user‘,‘rk001‘,‘f1:age‘,‘12‘。pom.xml文件内容如下：

strongyoung 0喜欢 / 0评论 2020-02-20

Hbase的API案例实战

如下内容作为maven工程中pom.xml的repositories的内容

gengwx00 0喜欢 / 0评论 2020-02-19

大数据 hadoop ------ pig 、hive、Mahout、hbase

Pig最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache的一个项目，由Apache来负责维护，Pig是一个基于 Hadoop的大规模数据分析平台。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口，这一

genshengxiao 0喜欢 / 0评论 2020-02-17

Hbase的region合并与拆分详解

region中存储的是大量的rowkey数据 ,当region中的数据条数过多的时候,直接影响查询效率.当region过大的时候.hbase会拆分region , 这也是Hbase的一个优点 .如果设置较小则对小表友好，但一个大表就会在整个集群产生大量的r

lwb 0喜欢 / 0评论 2020-02-17

hbase - 安装(Windows)

将 E:\hbase-2.2.3\lib\client-facing-thirdparty下的jar包拷至lib目录下。新建环境变量HADOOP_HOME，值为E:\hadoop-common-2.2.0-bin-master

needyit 0喜欢 / 0评论 2020-02-03

HBase文档学习顺序

12、《importTSV工具使用》。15、《hbase压缩以及hive集成映射》

大而话之BigData 0喜欢 / 0评论 2020-02-02

Hbase 创建表插入数据Hb

// Adding column families to table descriptor 设置列族名。//这里使用的是接口Admin 该接口有一个实现类HBaseAdmin 也可以直接使用这个实现类。String rowKey = "

大而话之BigData 0喜欢 / 0评论 2020-02-01

【基础组件11】hdfs与hbase

hdfs 是分布式文件系统, 只支持在文件层面的增、删除、改、查。hbase 是支持海量数据存储的NoSql数据库，基于hdfs的，支持数据的增、删、改、查，支持随机写数据。Region————横向的切片，数据量大时，会把一张表横向切割成, 多个Regio

硅步至千里 0喜欢 / 0评论 2020-01-30

(写了一点写不下去了,虽然垃圾但又不想扔)hbase--大数据中的NoSql

hbase是一种分布式、可扩展、支持海量数据存储的NoSql数据库，可以对几十亿条数据进行秒级查询。逻辑上，hbase的数据模型和关系型数据库比较类似，数据存在一张表中，有行有列。但是从hbase的底层物理存储逻辑来看，hbase更像是一个multi-di

Woohome 0喜欢 / 0评论 2019-12-28

大数据高可用集群环境安装与配置（07）——安装HBase高可用集群

-- hbase在hadoop的HDFS中的存储路径 -->. -- 设置zookeeper集群地址 -->. -- 设置zookeeper的数据存放目录 -->. -- 是否开启完全分布式配置 -->. -- RegionServ

鲸鱼写程序 0喜欢 / 0评论 2019-12-28

HBase Hive

Hive是建立在Hadoop上的数据仓库基础架构。它提供了一系列的工具，用来进行数据提取、转换、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据机制。可以把Hadoop下结构化数据文件映射为一张成Hive中的表，并提供类sql查询功能，除

ITwangnengjie 0喜欢 / 0评论 2020-01-02

Snapshots常用命令

HBase Snapshots允许你对一个表进行快照，它不会对Region Servers产生很大的影响，它进行复制和恢复操作的时候不包括数据拷贝。导出快照到另外的集群也不会对Region Servers产生影响。下面告诉你如何使用Snapshots功能

needyit 0喜欢 / 0评论 2020-01-10

https://hbase.apache.org/devapidocs/org/apache/hadoop/hbase/util/MurmurHash.html

https://hbase.apache.org/devapidocs/org/apache/hadoop/hbase/util/MurmurHash.html https://github.com/spaolacci/murmur3https:

Elmo 0喜欢 / 0评论 2020-01-10

初识 HBase

对大数据领域有一定了解的小伙伴对HBase应该不会陌生，HBase是Apache基金会开源的一个分布式非关系型数据库，属于Hadoop的组件。它使用Java编写，需运行于HDFS文件系统之上。HBase与Hadoop中的其他组件一样，可以运行在廉价硬件上，

gengwx00 0喜欢 / 0评论 2020-01-09

Zookeeper、Hadoop、Hbase的启动顺序以及关闭顺序

Hadoop及hbase集群启动顺序 zookeepeer -> hadoop -> hbase

MrZhangAdd 0喜欢 / 0评论 2020-01-03