大数据存储与处理-第五讲.ppt

资源ID：6043566 资源大小：4.25MB 全文页数：43页
资源格式： PPT 下载积分：15金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要15金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

大数据存储与处理-第五讲.ppt

,推荐,!Cloudera Live,!基于HUE,（Hadoop User Experience）的试验环境,!可以试验Hive/,Pig/Impala/Solr/Spark/,Oozie/HBase/HDFS,第2页,Hbase简介,!为什么需要HBase,!HBase特性及实现原理,!HBase操作的内部流程,本节目录,!为什么需要HBase,!HBase特性及实现原理,!HBase操作的内部流程,Google应用场景,!快速检索页面,第5页,具体需求,!Google的结构化数据存储需求,低成本可扩展地处理以十亿为单位的数据表（海量）,众多的列，但并非每列都有数据，且经常只访问很少的列（稀疏）高吞吐量和高并发（快速）,!HBase的原型 Google Bigtable,RDBMS能满足吗？,cache,parallel,MapReduce+GFS能满足吗？,n,Map/Reduce,n,?,!MapReduce程序能满足高并发要求吗？!全文件扫描效率行吗？,答案,!因为RDBMS和MapReduce不能满足要求海量结构化数据存储需求,众多的列，但并非每列都有数据，且经常只访问很少的列（稀疏）低成本可扩展地处理以十亿为单位的数据表（海量）高吞吐量和高并发（快速）,!所以：,Bigtable HBase,本节目录,!为什么需要HBase,!HBase特性及实现原理,!HBase操作的内部流程,HBase 面向列的、基于HDFS、高性能分布式数据库系统（）,稀疏,海量,快速,稀疏,稀疏与HBase面向列的数据模型,稀疏与HBase面向列的数据模型,!提高访问少数列的效率!提高压缩比,稀疏与HBase面向列的数据模型,value=Map(TableName,RowKey,ColumnKey,Version),!,TableName 表名字符串数据表的标识,!,RowKey 行关键字字符串最大长度64KB 用来检索记录,的主键,!,ColumnKey 列关键字列族+限定词字符串数据以列族为准存储列族需提前定义,限定词可使用时生成,!,Version 版本适应同一数据在不同时间的变化（网页）不同版本的同一数据按时间倒序排列，最新的在最前面,HBase表实例,行数 12,行关键字com.bbc.n.n.n.n.n.www,版本t2t1t7t6t5t4t3,列族：contents a1 d4c3b2,列族：anchoranchor:com.bbc.www=“BBC”anchor:=“CNN”anchor:my.look.ca=“CNN.com”,海量,逻辑表到HDFS物理存储的映射!关键：以列族为单位进行物理存储,行关键字,版本t5t4,列族：contentsd4c3,t3,b2,行关键字 n.n.www,版本 t7 t6,列族：anchor anchor:=”CNN”anchor:my.look.ca=”CNN.com”,!,行列族=面 Store,一行数据看作一个面一个列族看作一个Store 行由若干列族构成面是若干Store构成 Store即物理存储基本单元 n.www的一行数据视为转换为两张物理存储表（Store）进行存储,列族contents物理表,列族anchor物理表,HBase的存储架构使用者,!Client,HBase功能使用者与Master间进行管,理操作,与RegionServer间,进行数据读写操作,HBase的存储架构协调者,!Zookeeper,协同管理节点,分布式协作、分布式同步、配置管理存储了Master的地址和RegionServer状态信息,HBase的存储架构管理者,!Master,控制节点,管理对数据表的增,删改和查询操作,调整RegionServer,的负载均衡和Region分布,可有多个Master,HBase的存储架构存储者,!,RegionServer 处理数据读写请求 HDFS文件交互 Region 表中的分区多个Store 1个HLog Store 数据存储核心 MemStore/StoreFile HLog,保障可靠性 MemStore数据镜像持久化到文件,逻辑表到物理存储逐步拆解,!Table Region Store HFile Block HDFS File,逻辑表到物理存储Table Region,!,Table到Region 一张表是分为HRegion单元并存储在RegionServer上提高大表存储的效率表数据在行上按RowKey排序后，分为多个Region进程存储多个Region可以存放在一个RegionServer上 Region的分裂表在一开始时只有一个Region，随着数据不断增加，Region会越变越大当超过一个阈值时，Region会等分为两个这个过程会不断重复，HRegion逐渐增加,逻辑表到物理存储Region Store,!,Region到Store HRegion是分布式存储的最小单元，但并不是物理存储的最小单元 Region划分为若干Store进行存储，每个Store保存一个列族中的数据,逻辑表到物理存储Store HFile,!,Store到File Store由两部分组成，MemStore和StoreFile MemStore是RegionServer上的一段内存空间 StoreFile是HDFS中的一个HFile文件数据库操作会先存入MemStore，当MemStore满了后会转存到StoreFile中（？）1个Store可包含多个StoreFile，并建立了StoreFile索引,逻辑表到物理存储HFile Block,逻辑表到物理存储HFile HDFS Block,速度,速度的关键,!第1步：快速找到RegionServer!第2步：快速找到HFile,第1步：定位RegionServer,!如何通过表名和行关键字找到所在的RegionServer？,定位RS找到Region（.META.表）,!,.META.表,存储了所有表的元数据信息支持以表名和行关键字（或关键字的范围）查找到对应的RegionServer 行关键字：表名、此Region起始关键字和Region的id info:regioninfo：记录Region的一些必要信息 info:server：Region所在的RegionServer的地址和端口 infor.serverstartcode：RegionServer对应.META.表持有进程的启动时间第32页,行关键字,列1info:regioninfo,列2info:server,列3info:serverstartcode,定位RS找到.META.（-ROOT-表）,!,-ROOT-表,根数据表，存放了.META.表的HRegionServer信息，存放在Zookeeper服务器-ROOT-表的Region不会被拆分，永远只有一个客户端首次访问获取-ROOT-表的位置并存入缓存行关键字：每个.META.表的Region索引 info:regioninfo：记录Region的一些必要信息 info:server：Region所在的RegionServer的地址和端口 info.serverstartcode：RegionServer对应.META.表持有进程的启动时间,行关键字.META.Region Key,列1info:regioninfo,列2info:server,列3info:serverstartcode,第2步快速找到HFile,定位HFileMemstore与Store对StoreFile的索引,!B+tree（RDMBS时代的索引表）LSM tree 查询优化 VS.插入优化内存 VS.磁盘,定位HFileMemstore带来的问题,!memStore带来的问题：RegionServer宕机怎么办？,Write-Ahead Logging（WAL）+HLog,本节目录,!为什么需要HBase,!HBase特性及实现原理,!Hbase的部署与操作流程,HBase典型物理部署,!,MasterServer控制节点 HBase的HMaster HDFS的NameNode MapReduce的JobTracker RegionServer,R、M1、M2存放-ROOT-表和.META.表数据表存放在Region Server U1至Un中 Region Server U1至Un部署了HDFS的DataNode组件以提高数据访问效率 Region Server U1至Un运行MapReduce作业时的TaskTracker,HBase读/写数据流程,!,Client首次读取tableA中第1行数据：从Zookkeeper中获取-ROOT-表的Region服务器R（步骤）从Region Server R中根据表的名称索引找到.META.表所在的Region服务器M1（步骤）Client根据表名和行关键字找到对应的Region服务器U1（步骤）使用接口从U1进行数据读取/向U1写入数据（步骤，MemStore/LSM tree）,HBase表结构操作流程,!,MasterServer维护表结构增加、删除表，增加、删除列族 Client通过Shell指令或API接口向Master Server发出请求（步骤）创建表默认情况在空间可用的RegionServer上新增1个Region（步骤）更新.META.表所有后续的写入操作都会将数据存入此Region中，直到Region尺寸达到一定程度分裂为两个Region，并不断重复动态增加列族,Master Server会根据用户请求，查找到可用的Region Server，并在相应的Region Server上为新的列族创建storeFile（步骤）,RegionServer状态维护!RegionServer在启动时，在Zookeeper上server列表目录下创建代表自己的文件，并获得该文件独占锁!MasterServer通过订阅方式收到Zookeeper发来的server列表目录,下的文件新增或删除消息（步骤），,以了解RegionServer状况!RegionServer通过心跳消息与,Zookeeper之间保持会话（步骤）,!节点或网络故障导致某个RegionServer与Zookeeper之间的会话断开时，Zookeeper会释放对应文件的独占锁，会被Master Server通过轮询发现，知道Region Server出现了问题，并进行随后的Region再分配和数据恢复操作,MasterServer状态维护,!MasterServer状态影响表结构、Region分配与合并、负载均衡等!Master Server维护的数据，例如Region分布、表结构信息，都来自其他节点的复制,!利用Zookeeper进行Master Server热备份的机制提高HBase的可用性,!Master Server失去与Zookeeper之间的心跳会话时（步骤），可以基于Leader Election机制从备用Master Server中很快选择一个新的主MasterServer恢复HBase集群的正常服务,总结,!HBase三大要点：稀疏、海量、快速,!稀疏：面向列的存储,!海量：HDFS，TableRegionStore HFileBlockHDFS Block,!快速：.META.、-ROOT-，B+tree LSM tree索引,!部署与流程,实践,在Hadoop基础环境下，装上HBase,

注意事项

本文（大数据存储与处理-第五讲.ppt）为本站会员（牧羊曲112）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。