欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    大数据存储与处理-第五讲.ppt

    • 资源ID:6043566       资源大小:4.25MB        全文页数:43页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据存储与处理-第五讲.ppt

    ,推荐,!Cloudera Live,!基于HUE,(Hadoop User Experience)的试验环境,!可以试验Hive/,Pig/Impala/Solr/Spark/,Oozie/HBase/HDFS,第2页,Hbase简介,!为什么需要HBase,!HBase特性及实现原理,!HBase操作的内部流程,本节目录,!为什么需要HBase,!HBase特性及实现原理,!HBase操作的内部流程,Google应用场景,!快速检索页面,第5页,具体需求,!Google的结构化数据存储需求,低成本可扩展地处理以十亿为单位的数据表(海量),众多的列,但并非每列都有数据,且经常只访问很少的列(稀疏)高吞吐量和高并发(快速),!HBase的原型 Google Bigtable,RDBMS能满足吗?,cache,parallel,MapReduce+GFS能满足吗?,n,Map/Reduce,n,?,!MapReduce程序能满足高并发要求吗?!全文件扫描效率行吗?,答案,!因为RDBMS和MapReduce不能满足要求海量结构化数据存储需求,众多的列,但并非每列都有数据,且经常只访问很少的列(稀疏)低成本可扩展地处理以十亿为单位的数据表(海量)高吞吐量和高并发(快速),!所以:,Bigtable HBase,本节目录,!为什么需要HBase,!HBase特性及实现原理,!HBase操作的内部流程,HBase 面向列的、基于HDFS、高性能 分布式数据库系统(),稀疏,海量,快速,稀疏,稀疏与HBase面向列的数据模型,稀疏与HBase面向列的数据模型,!提高访问少数列的效率!提高压缩比,稀疏与HBase面向列的数据模型,value=Map(TableName,RowKey,ColumnKey,Version),!,TableName 表名 字符串 数据表的标识,!,RowKey 行关键字 字符串 最大长度64KB 用来检索记录,的主键,!,ColumnKey 列关键字 列族+限定词 字符串 数据以列族为准存储 列族需提前定义,限定词可使用时生成,!,Version 版本 适应同一数据在不同时间的变化(网页)不同版本的同一数据按时间倒序排列,最新的在最前面,HBase表实例,行数 12,行关键字com.bbc.n.n.n.n.n.www,版本t2t1t7t6t5t4t3,列族:contents a1 d4c3b2,列族:anchoranchor:com.bbc.www=“BBC”anchor:=“CNN”anchor:my.look.ca=“CNN.com”,海量,逻辑表到HDFS物理存储的映射!关键:以列族为单位进行物理存储,行关键字,版本t5t4,列族:contentsd4c3,t3,b2,行关键字 n.n.www,版本 t7 t6,列族:anchor anchor:=”CNN”anchor:my.look.ca=”CNN.com”,!,行 列族=面 Store,一行数据看作一个面 一个列族看作一个Store 行由若干列族构成 面是若干Store构成 Store即物理存储基本单元 n.www的一行数据视为转换为两张物理存储表(Store)进行存储,列族contents物理表,列族anchor物理表,HBase的存储架构使用者,!Client,HBase功能使用者 与Master间进行管,理操作,与RegionServer间,进行数据读写操作,HBase的存储架构协调者,!Zookeeper,协同管理节点,分布式协作、分布式同步、配置管理 存储了Master的地址和RegionServer状态信息,HBase的存储架构管理者,!Master,控制节点,管理对数据表的增,删改和查询操作,调整RegionServer,的负载均衡和Region分布,可有多个Master,HBase的存储架构存储者,!,RegionServer 处理数据读写请求 HDFS文件交互 Region 表中的分区 多个Store 1个HLog Store 数据存储核心 MemStore/StoreFile HLog,保障可靠性 MemStore数据镜像持久化到文件,逻辑表到物理存储逐步拆解,!Table Region Store HFile Block HDFS File,逻辑表到物理存储Table Region,!,Table到Region 一张表是分为HRegion单元并存储在RegionServer上 提高大表存储的效率 表数据在行上按RowKey排序后,分为多个Region进程存储 多个Region可以存放在一个RegionServer上 Region的分裂 表在一开始时只有一个Region,随着数据不断增加,Region会越变越大 当超过一个阈值时,Region会等分为两个 这个过程会不断重复,HRegion逐渐增加,逻辑表到物理存储Region Store,!,Region到Store HRegion是分布式存储的最小单元,但并不是物理存储的最小单元 Region划分为若干Store进行存储,每个Store保存一个列族中的数据,逻辑表到物理存储Store HFile,!,Store到File Store由两部分组成,MemStore和StoreFile MemStore是RegionServer上的一段内存空间 StoreFile是HDFS中的一个HFile文件 数据库操作会先存入MemStore,当MemStore满了后会转存到StoreFile中(?)1个Store可包含多个StoreFile,并建立了StoreFile索引,逻辑表到物理存储HFile Block,逻辑表到物理存储HFile HDFS Block,速度,速度的关键,!第1步:快速找到RegionServer!第2步:快速找到HFile,第1步:定位RegionServer,!如何通过表名和行关键字找到所在的RegionServer?,定位RS找到Region(.META.表),!,.META.表,存储了所有表的元数据信息 支持以表名和行关键字(或关键字的范围)查找到对应的RegionServer 行关键字:表名、此Region起始关键字和Region的id info:regioninfo:记录Region的一些必要信息 info:server:Region所在的RegionServer的地址和端口 infor.serverstartcode:RegionServer对应.META.表持有进程的启动时间 第32页,行关键字,列1info:regioninfo,列2info:server,列3info:serverstartcode,定位RS找到.META.(-ROOT-表),!,-ROOT-表,根数据表,存放了.META.表的HRegionServer信息,存放在Zookeeper服务器-ROOT-表的Region不会被拆分,永远只有一个 客户端首次访问获取-ROOT-表的位置并存入缓存 行关键字:每个.META.表的Region索引 info:regioninfo:记录Region的一些必要信息 info:server:Region所在的RegionServer的地址和端口 info.serverstartcode:RegionServer对应.META.表持有进程的启动时间,行关键字.META.Region Key,列1info:regioninfo,列2info:server,列3info:serverstartcode,第2步快速找到HFile,定位HFileMemstore与Store对StoreFile的索引,!B+tree(RDMBS时代的索引表)LSM tree 查询优化 VS.插入优化 内存 VS.磁盘,定位HFileMemstore带来的问题,!memStore带来的问题:RegionServer宕机怎么办?,Write-Ahead Logging(WAL)+HLog,本节目录,!为什么需要HBase,!HBase特性及实现原理,!Hbase的部署与操作流程,HBase典型物理部署,!,MasterServer控制节点 HBase的HMaster HDFS的NameNode MapReduce的JobTracker RegionServer,R、M1、M2存放-ROOT-表和.META.表 数据表存放在Region Server U1至Un中 Region Server U1至Un部署了HDFS的DataNode组件以提高数据访问效率 Region Server U1至Un运行MapReduce作业时的TaskTracker,HBase读/写数据流程,!,Client首次读取tableA中第1行数据:从Zookkeeper中获取-ROOT-表的Region服务器R(步骤)从Region Server R中根据表的名称索引找到.META.表所在的Region服务器M1(步骤)Client根据表名和行关键字找到对应的Region服务器U1(步骤)使用接口从U1进行数据读取/向U1写入数据(步骤,MemStore/LSM tree),HBase表结构 操作流程,!,MasterServer维护表结构 增加、删除表,增加、删除列族 Client通过Shell指令或API接口向Master Server发出请求(步骤)创建表 默认情况在空间可用的RegionServer上新增1个Region(步骤)更新.META.表 所有后续的写入操作都会将数据存入此Region中,直到Region尺寸达到一定程度分裂为两个Region,并不断重复 动态增加列族,Master Server会根据用户请求,查找到可用的Region Server,并在相应的Region Server上为新的列族创建storeFile(步骤),RegionServer状态维护!RegionServer在启动时,在Zookeeper上server列表目录下创建代表自己的文件,并获得该文件独占锁!MasterServer通过订阅方式收到Zookeeper发来的server列表目录,下的文件新增或删除消息(步骤),,以了解RegionServer状况!RegionServer通过心跳消息与,Zookeeper之间保持会话(步骤),!节点或网络故障导致某个RegionServer与Zookeeper之间的会话断开时,Zookeeper会释放对应文件的独占锁,会被Master Server通过轮询发现,知道Region Server出现了问题,并进行随后的Region再分配和数据恢复操作,MasterServer状态维护,!MasterServer状态影响表结构、Region分配与合并、负载均衡等!Master Server维护的数据,例如Region分布、表结构信息,都来自其他节点的复制,!利用Zookeeper进行Master Server热备份的机制提高HBase的可用性,!Master Server失去与Zookeeper之间的心跳会话时(步骤),可以基于Leader Election机制从备用Master Server中很快选择一个新的主MasterServer恢复HBase集群的正常服务,总结,!HBase三大要点:稀疏、海量、快速,!稀疏:面向列的存储,!海量:HDFS,TableRegionStore HFileBlockHDFS Block,!快速:.META.、-ROOT-,B+tree LSM tree索引,!部署与流程,实践,在Hadoop基础环境下,装上HBase,

    注意事项

    本文(大数据存储与处理-第五讲.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开