基于hadoop数据仓库.ppt

资源ID：5064485 资源大小：1.52MB 全文页数：32页
资源格式： PPT 下载积分：15金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要15金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

基于hadoop数据仓库.ppt

基于hadoop的数据仓库技术,目录,Hadoop简介HDFS(Hadoop Distributed File System)MapReduceHive,本文的内容主要来自三篇hadoop领域的核心论文1、HiveA Petabyte Scale Data Warehouse Using Hadoop2、MapReduce and Parallel DBMSs:Friends or Foes3、Cheetah:A High Performance,Custom Data Warehouse on Top of MapReduce,历史,2002-2004:Apache Nutch2004-2006:Google 发表 GFS 和 MapReduce相关论文Apache 在Nutch中实现HDFS和MapReduce2006-2008:Hadoop 项目从Nutch中分离2008年7月，Hadoop赢得Terabyte Sort Benchmark,Doug CuttingHadoop项目负责人,Hadoop简介,Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streaming access）文件系统中的数据。,Hadoop简介,Hadoop是 Apache 的一个开源软件项目,由Doug Cutting在2004年开始开发。Hadoop是一个海量数据存储和计算的分布式系统，它由若干个成员组成，主要包括：HDFS、MapReduce、HBase、Hive、Pig 和 ZooKeeper，其中HDFS是Google的GFS开源版本，HBase 是Google的 BigTable开源版本，ZooKeeper是Google的Chubby开源版本。Hadoop在大量的公司中被使用和研究,Hadoop的体系架构,Hadoop由以下几个部件组成：Hadoop Common:The common utilities that support the other Hadoop subprojects.Avro:A data serialization system that provides dynamic integration with scripting languages.Chukwa:A data collection system for managing large distributed systems.HBase:A scalable,distributed database that supports structured data storage for large tables.HDFS:A distributed file system that provides high throughput access to application data.Hive:A data warehouse infrastructure that provides data summarization and ad hoc querying.MapReduce:A software framework for distributed processing of large data sets on compute clusters.Pig:A high-level data-flow language and execution framework for parallel computation.ZooKeeper:A high-performance coordination service for distributed applications.,Hadoop的体系架构,Hadoop-HDFS,HDFS的结构按照GFS设计A GFS cluster consists of a single master and multiplechunkservers and is accessed by multiple clients,HDFS,Fault-tolerant,容错性Run on commodity hardware，在通用的机器上运行Scalable 可扩缩的,1个namenode多个datanodes,11,11,HDFS,NameNode存贮HDFS的元数据(metadata)管理文件系统的命名空间（namespace）创建、删除、移动、重命名文件和文件夹接收从DataNode来的Heartbeat 和 BlockreportDataNode存贮数据块执行从Namenode来的文件操作命令定时向NameNode发送Heartbeat和Blockreport,Heartbeat和Blockreport,NamenodeMetadata:,Datanode 1,Datanode 2,Datanode 3,1,1,3,3,2,2,1,3,1,2,2,3,13,13,Data Flow,File Read,13,14,14,Data Flow,File Write,14,MapReduce的原理,编程模型（program model），软件包Map把要处理的数据组合成一个个的对（pair）Reduce把具有相同key的pair聚集在一起，计算一个新的value，从而得到一个新的并输出。,MapReduce的原理,Mapreduce,控制,数据流,一个Jobtracker多个tasktrackers,MapReduce,Jobtraker(Master)接收任务（job）的提交提供任务的监控(monitoring)和控制(control)把job划分成多个tasks，交给Tasktracker执行，并管理这些tasks的执行Tasktracker(Worker)管理单个task的map任务和reduce任务的执行,Word count:file0:hello worldfile1:hello mapreducefile2:bye bye,Input files,file0,file2,file1,files,files,目录,Hadoop简介HDFS(Hadoop Distributed File System)MapReduceHiveHadoop的企业级应用,What is HIVE,数据仓库业务具有多样性、多变性和逻辑复杂性，传统的Parallel DBMSs只能使用SQL语句，语言表达力不够应付现有的类似google，facebook等的数据仓库需求（若使用UDF或UDA自己定义aggregate，则失去了其强大的优化功能），而自己定制的maper和reducer的代码较为低层比较繁琐且重用性也不好，所以就有了Hive，提供一个类SQL的编程接口，简单又不失灵活性，且基于map-reduce.,What is HIVE,（论文翻译）hive是一个基于hadoop的数据仓库。使用hadoop-hdfs作为数据存储层；提供类似SQL的语言（HQL），通过hadoop-mapreduce完成数据计算；通过HQL语言提供使用者部分传统RDBMS一样的表格查询特性和分布式存储计算特性。（百科）hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。,HIVE架构,1、操作界面：CLI，Web，Thrift2、driver：hive系统将用户操作转化为mapreduce计算的模块（重点）3、hadoop：hdfs+mapreduce4、metastore：存储元数据,HIVE结合HBase,reduce阶段写入HBase的方式,map-only job写入HBase的方式,HIVE的实现,hive的元数据存储在传统的RDBMS中，现在为mysql中。采用JDO（JPOX）。原因：访问这些Metadata，我们想要“很低的延时”，而存在hdfs中是无法满足。（元数据对hive是相当重要的，因此一般要求有备份机制）使用：元数据都是在HQL语句编译的时候，就被生成一个xml文件（包含此次编译所有需要的元数据信息）存储在hdfs中，然后运行mapreduce时传递给mapper和reducer。（减少后期访问）,HIVE查询的优化过程,GraphWalker遍历（walk）DAG中所有的Node，并检查一个Rule是否满足，在满足的条件下回出发一个对应的Processor。Dispatcher则维护Rule到Processor的映射，并进行Rule的匹配工作。,HIVE查询的简单优化步骤,1、列裁剪（Column pruning）：只有需要用到的列才进行输出2、谓词下推（Predicate pushdown）：尽早进行数据过滤，减少后续处理的数据量3、分区裁剪（Partition pruning）：只读取满足分区条件的文件4、map-join：对于join中一些小文件，可以在map阶段进行join操作5、join-reordering：将在reducer中进行join操作时的小table放入内存，而大table通过stream方式读取6、Group-by优化：进行局部聚合进行优化（包括hash-based和sort-based），对于skew的key（key的row num和size在reduce时非常不均）可以进行两次map-reduce的方式优化,说明：基本上用于优化的提示（hint）都是一些配置项，map-join除外，需要具体在HQL直接指定。,HIVE的physical plan的生成,根据上一步优化的结果，分解成一些map/reduce操作，并将最终结果（即一些plan的xml文件）写入到hdfs。以论文的例子加以说明A.Thusoo,J.S.Sarma,N.Jain,Z.Shao,P.Chakka,N.Zhang,S.Antony,and H.Liu,“Hive A Petabyte Scale Data Warehouse Using Hadoop,”Architecture.,HIVE的physical plan的生成,The End,Thank you k,

注意事项

本文（基于hadoop数据仓库.ppt）为本站会员（牧羊曲112）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。