大数据存储与处理-第五讲.ppt
《大数据存储与处理-第五讲.ppt》由会员分享,可在线阅读,更多相关《大数据存储与处理-第五讲.ppt(43页珍藏版)》请在三一办公上搜索。
1、,推荐,!Cloudera Live,!基于HUE,(Hadoop User Experience)的试验环境,!可以试验Hive/,Pig/Impala/Solr/Spark/,Oozie/HBase/HDFS,第2页,Hbase简介,!为什么需要HBase,!HBase特性及实现原理,!HBase操作的内部流程,本节目录,!为什么需要HBase,!HBase特性及实现原理,!HBase操作的内部流程,Google应用场景,!快速检索页面,第5页,具体需求,!Google的结构化数据存储需求,低成本可扩展地处理以十亿为单位的数据表(海量),众多的列,但并非每列都有数据,且经常只访问很少的列(
2、稀疏)高吞吐量和高并发(快速),!HBase的原型 Google Bigtable,RDBMS能满足吗?,cache,parallel,MapReduce+GFS能满足吗?,n,Map/Reduce,n,?,!MapReduce程序能满足高并发要求吗?!全文件扫描效率行吗?,答案,!因为RDBMS和MapReduce不能满足要求海量结构化数据存储需求,众多的列,但并非每列都有数据,且经常只访问很少的列(稀疏)低成本可扩展地处理以十亿为单位的数据表(海量)高吞吐量和高并发(快速),!所以:,Bigtable HBase,本节目录,!为什么需要HBase,!HBase特性及实现原理,!HBase操
3、作的内部流程,HBase 面向列的、基于HDFS、高性能 分布式数据库系统(),稀疏,海量,快速,稀疏,稀疏与HBase面向列的数据模型,稀疏与HBase面向列的数据模型,!提高访问少数列的效率!提高压缩比,稀疏与HBase面向列的数据模型,value=Map(TableName,RowKey,ColumnKey,Version),!,TableName 表名 字符串 数据表的标识,!,RowKey 行关键字 字符串 最大长度64KB 用来检索记录,的主键,!,ColumnKey 列关键字 列族+限定词 字符串 数据以列族为准存储 列族需提前定义,限定词可使用时生成,!,Version 版本
4、适应同一数据在不同时间的变化(网页)不同版本的同一数据按时间倒序排列,最新的在最前面,HBase表实例,行数 12,行关键字com.bbc.n.n.n.n.n.www,版本t2t1t7t6t5t4t3,列族:contents a1 d4c3b2,列族:anchoranchor:com.bbc.www=“BBC”anchor:=“CNN”anchor:my.look.ca=“CNN.com”,海量,逻辑表到HDFS物理存储的映射!关键:以列族为单位进行物理存储,行关键字,版本t5t4,列族:contentsd4c3,t3,b2,行关键字 n.n.www,版本 t7 t6,列族:anchor an
5、chor:=”CNN”anchor:my.look.ca=”CNN.com”,!,行 列族=面 Store,一行数据看作一个面 一个列族看作一个Store 行由若干列族构成 面是若干Store构成 Store即物理存储基本单元 n.www的一行数据视为转换为两张物理存储表(Store)进行存储,列族contents物理表,列族anchor物理表,HBase的存储架构使用者,!Client,HBase功能使用者 与Master间进行管,理操作,与RegionServer间,进行数据读写操作,HBase的存储架构协调者,!Zookeeper,协同管理节点,分布式协作、分布式同步、配置管理 存储了M
6、aster的地址和RegionServer状态信息,HBase的存储架构管理者,!Master,控制节点,管理对数据表的增,删改和查询操作,调整RegionServer,的负载均衡和Region分布,可有多个Master,HBase的存储架构存储者,!,RegionServer 处理数据读写请求 HDFS文件交互 Region 表中的分区 多个Store 1个HLog Store 数据存储核心 MemStore/StoreFile HLog,保障可靠性 MemStore数据镜像持久化到文件,逻辑表到物理存储逐步拆解,!Table Region Store HFile Block HDFS Fi
7、le,逻辑表到物理存储Table Region,!,Table到Region 一张表是分为HRegion单元并存储在RegionServer上 提高大表存储的效率 表数据在行上按RowKey排序后,分为多个Region进程存储 多个Region可以存放在一个RegionServer上 Region的分裂 表在一开始时只有一个Region,随着数据不断增加,Region会越变越大 当超过一个阈值时,Region会等分为两个 这个过程会不断重复,HRegion逐渐增加,逻辑表到物理存储Region Store,!,Region到Store HRegion是分布式存储的最小单元,但并不是物理存储的最
8、小单元 Region划分为若干Store进行存储,每个Store保存一个列族中的数据,逻辑表到物理存储Store HFile,!,Store到File Store由两部分组成,MemStore和StoreFile MemStore是RegionServer上的一段内存空间 StoreFile是HDFS中的一个HFile文件 数据库操作会先存入MemStore,当MemStore满了后会转存到StoreFile中(?)1个Store可包含多个StoreFile,并建立了StoreFile索引,逻辑表到物理存储HFile Block,逻辑表到物理存储HFile HDFS Block,速度,速度的关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 存储 处理 第五
链接地址:https://www.31ppt.com/p-6043566.html