大数据基础技术概述课件.ppt
《大数据基础技术概述课件.ppt》由会员分享,可在线阅读,更多相关《大数据基础技术概述课件.ppt(42页珍藏版)》请在三一办公上搜索。
1、2023/3/8,大数据基础技术概述42,大数据基础技术概述42,大数据基础技术概述42,大数据基础技术概述,大数据处理的基本流程大数据关键技术Hadoop介绍流计算介绍图计算介绍NoSQL介绍大数据面临的其他问题,大数据基础技术概述42,大数据处理的基本流程,整个大数据的处理流程可以定义为:在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准进行统一存储,并利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户。具体来说,可以分为数据抽取与集成、数据分析以及数据解释。,大数据基础技术概述42,数据抽取与集成,大数据的一个重要特点
2、就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂。这种复杂的数据环境给大数据的处理带来极大的挑战。要想处理大数据,首先必须对所需数据源的数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据。在数据集成和提取时需要对数据进行清洗,保证数据质量及可信性。现有的数据抽取与集成方式可以大致分为以下四种类型:数据整合、数据联邦、数据传播和混合方法等。(1)数据整合(Data Consolidation):不同数据源的数据被物理地集成到数据目标。利用ETL工具把数据源中的数据批量地加载到数据仓库,就属于数据整合的方式。(2)数据联邦(Data Federat
3、ion):在多个数据源的基础上建立一个统一的逻辑视图,对外界应用屏蔽数据在各个数据源的分布细节。对于这些应用而言,只有一个统一的数据访问入口,但是实际上,被请求的数据只是逻辑意义上的集中,在物理上仍然分布在各个数据源中,只有被请求时,才临时从不同数据源获取相关数据,进行集成后提交给数据请求者。当数据整合方式代价太大或者为了满足一些突发的实时数据需求时,可以考虑采用数据联邦的方式建立企业范围内的全局统一数据视图。(3)数据传播(Data Propagation):数据在多个应用之间的传播。比如,在企业应用集成(EAI)解决方案中,不同应用之间可以通过传播消息进行交互。(4)混合方式(A Hybr
4、id Approach):在这种方式中,对于那些不同应用都使用的数据采用数据整合的方式进行集成,而对那些只有特定应用才使用的数据则采用数据联邦的方式进行集成。,大数据基础技术概述42,数据分析,传统的分析技术如数据挖掘、机器学习、统计分析等在大数据时代需要做出调整,因为这些技术在大数据时代面临着一些新的挑战,主要有:数据量大并不一定意味着数据价值的增加,相反这往往意味着数据噪音的增多大数据时代的算法需要进行调整(邦弗朗尼原理)数据结果好坏的衡量,大数据基础技术概述42,数据解释,数据分析是大数据处理的核心,但是用户往往更关心结果的展示。如果分析的结果正确但是没有采用适当的解释方法,则所得到的结
5、果很可能让用户难以理解,极端情况下甚至会误导用户。大数据时代的数据分析结果往往也是海量的,同时结果之间的关联关系极其复杂,采用传统的解释方法基本不可行 可以考虑从下面两个方面提升数据解释能力:-引入可视化技术-让用户能够在一定程度上了解和参与具体的分析过程,大数据基础技术概述42,大数据基础技术概述,大数据处理的基本流程大数据关键技术Hadoop介绍流计算介绍图计算介绍NoSQL介绍大数据面临的其他问题,大数据基础技术概述42,大数据技术分类,分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案,内存数据库等,存储,计算,应用,Map Reduce流计算图计算,H
6、IVE,pig,mahout,Sqoop以及ETL工具,统计与报告工具等,大数据基础技术概述42,Google的技术演进,Google 于2006 年首先提出了云计算的概念,并研发了一系列云计算技术和工具。难能可贵的是Google 并未将这些技术完全封闭,而是以论文的形式逐步公开其实现。正是这些公开的论文,使得以GFS、MapReduce、Bigtable 为代表的一系列大数据处理技术被广泛了解并得到应用,同时还催生出以Hadoop为代表的一系列云计算开源工具。下图展示了Google的技术演化过程:,大数据基础技术概述42,大数据处理工具,Hadoop 是目前最为流行的大数据处理平台。除了Ha
7、doop,还有很多针对大数据的处理工具。这些工具有些是完整的处理平台,有些则是专门针对特定的大数据处理应用。下表归纳总结了现今一些主流的处理平台和工具。,大数据基础技术概述42,大数据基础技术概述,大数据处理的基本流程大数据关键技术Hadoop介绍流计算介绍图计算介绍NoSQL介绍大数据面临的其他问题,大数据基础技术概述42,Hadoop简介,Hadoop 一个分布式系统基础架构,由Apache基金会开发。Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,借助于Hadoop,程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。Hadoop已经发展成为
8、目前最流行的大数据处理平台,大数据基础技术概述42,Hadoop的作用和功能,Hadoop采用了分布式存储方式,提高了读写速度,并扩大了存储容量。采用MapReduce来整合分布式文件系统上的数据,可保证分析和处理数据的高效。与此同时,Hadoop还采用存储冗余数据的方式保证了数据的安全性。Hadoop中HDFS的高容错特性,以及它是基于Java 语言开发的,这使得Hadoop可以部署在低廉的计算机集群中,同时不限于某个操作系统。Hadoop中HDFS的数据管理能力,MapReduce处理任务时的高效率,以及它的开源特性,使其在同类的分布式系统中大放异彩,并在众多行业和科研领域中被广泛采用。,
9、大数据基础技术概述42,Hadoop的优点,可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。经济:框架可以运行在任何普通的PC上。可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。(元数据磁盘错误,心跳测试,副本数)高效:分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。,大数据基础技术概述42,Hadoop生态系统,大数据基础技术概述42,Hadoop生态系统,Avro用于数据序列化的系统;HDFS是一种分布式文件系统,运行于大型商用机集群,HDFS为HB
10、ase提供了高可靠性的底层存储支持;HBase位于结构化存储层,是一个分布式的列存储数据库;MapReduce是一种分布式数据处理模式和执行环境,为HBase提供了高性能的计算能力;Zookeeper是一个分布式的、高可用性的协调服务,提供分布式锁之类的基本服务,用于构建分布式应用,为HBase提供了稳定服务和failover机制;Hive是一个建立在Hadoop 基础之上的数据仓库,它提供了一些用于数据整理、特殊查询和分析存储在Hadoop 文件中的数据集的工具;Pig是一种数据流语言和运行环境,用以检索非常大的数据集,大大简化了Hadoop常见的工作任务;Sqoop为HBase提供了方便的
11、RDBMS数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。,大数据基础技术概述42,Hadoop的新发展,Google后Hadoop时代的新“三驾马车”Caffeine、Pregel、Dremel 在2010年,Google搜索引擎发生了重大变革。Google将其搜索迁移到新的软件平台,他们称之为“Caffeine”(bigtable)。Pregel主要绘制大量网上信息之间关系的“图形数据库”Dremel可以在极快的速度处理网络规模的海量数据。据Google提交的文件显示你可以在几秒的时间处理PB级的数据查询。,大数据基础技术概述42,大数据基础技术概述,大数据处理的基本流程大
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 基础 技术 概述 课件

链接地址:https://www.31ppt.com/p-3020558.html