大数据与分布式计算.pptx
《大数据与分布式计算.pptx》由会员分享,可在线阅读,更多相关《大数据与分布式计算.pptx(64页珍藏版)》请在三一办公上搜索。
1、大数据与分布式计算,HDFS,Hadoop Distributed File System,1990年,一个普通的硬盘驱动器可存储1370 MB的数据并拥有4.4 MB/s的传输速度,所以,只需五分钟的时间就可以读取整个磁盘的数据。20年过去了,1 TB级别的磁盘驱动器是很正常的,但是数据传输的速度却在100 MB/s左右。所以它需要花两个半小时以上的时间读取整个驱动器的数据。从一个驱动器上读取所有的数据需要很长的时间,写甚至更慢。如何解决?磁盘损坏数据丢失怎么办?如果需要存储计算1000T数据怎么办?,常用RAID技术,HDFS系统架构,什么是HDFS?,Hadoop Distributed
2、 File SystemHadoop Distributed File System(HDFS)is the primary storage system used by Hadoop applications.HDFS creates multiple replicas of data blocks and distributes them on compute nodes throughout a cluster to enable reliable,extremely rapid computations.,HDFS设计目标,HDFS以流式数据访问模式存储超大文件,运行于商用硬件集群上。
3、,超大文件流式数据访问一次写入多次读取商用硬件,不适合HDFS的场景,低延迟的数据访问大量小文件超过NameNode的处理能力多用户任意写入修改文件,HDFS为了做到可靠性(reliability)创建了多份数据块(data blocks)的复制(replicas),并将它们放置在服务器群的计算节点中(compute nodes),MapReduce就可以在它们所在的节点上处理这些数据了。,设计目标,假设:节点失效是常态理想:1.任何一个节点失效,不影响HDFS服务2.HDFS可以自动完成副本的复制,HDFS主要组件的功能,文件,文件切分成块(默认大小64M),以块为单位,每个块有多个副本存储
4、在不同的机器上,副本数可在文件生成时指定(默认3)NameNode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表以及块所在的DataNode等等DataNode在本地文件系统存储文件块数据,以及块数据的校验和可以创建、删除、移动或重命名文件,当文件创建、写入和关闭之后不能修改文件内容。,分而治之(Divide and Conquer),分而治之(Divide and Conquer),分而治之(Divide and Conquer),MapReduce,MapReduce:大规模数据处理,处理海量数据(1TB)上百/上千CPU实现
5、并行处理简单地实现以上目的移动计算比移动数据更划算 分而治之(Divide and Conquer),MapReduce特性,自动实现分布式并行计算容错提供状态监控工具模型抽象简洁,程序员易用,MapReduce,它由称为map和reduce的两部分用户程序组成,然后利用框架在计算机集群上面根据需求运行多个程序实例来处理各个子任务,然后再对结果进行归并。,WordCount,MapReduce,MapReduce,物理上,MapReduce,Hive,SQLSub-queries in from clauseEqui-joinsInnerLeft,Right,full OuterMulti-t
6、able InsertMulti-group-by,ExtensibilityPluggable Map-reduce scriptsPluggable User Defined FunctionsPluggable User Defined TypesComplex object types:List of MapsPluggable Data FormatsApache Log FormatColumnar Storage Format,Hive QL Join,INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid,u.ageFROM page_v
7、iew pvJOIN user uON(pv.userid=u.userid);,Hive QL Join in Map Reduce,page_view,user,pv_users,Map,Reduce,了解Hive的意义,Hive是一个很方便的工具,一般的业务人员,就可以很快上手。,M/R任务的数量控制着语句的执行时间。如何减少M/R的任务数量?在写HQL时我们能做什么?,Hive如何把HQL转化为M/R job。Hive在转化过程中做了哪些优化。,Driver,Compiler,Hadoop,Hive架构Client,Metastore,Driver Compiler,Hadoop,Hi
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分布式 计算

链接地址:https://www.31ppt.com/p-4565622.html