第5章可视化关键技术ppt课件.pptx
《第5章可视化关键技术ppt课件.pptx》由会员分享,可在线阅读,更多相关《第5章可视化关键技术ppt课件.pptx(42页珍藏版)》请在三一办公上搜索。
1、,高级大数据人才培养丛书之一,大数据挖掘技术与应用,何光威 主编 郑志蕴 梁英杰 朱琼琼 副主编,BIG DATA,刘 鹏 张 燕 总主编,大数据可视化,高级大数据人才培养系列丛书,of,45,2,习题,5.1大数据架构,第5章大数据可视化的关键技术,of,45,3,对于“大数据”,研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据
2、类型和价值密度低四大特征。ITU Y.3600标准首先明确给出了大数据的定义:一种允许可能在实时性约束条件下收集、存储、管理、分析和可视化具有异构特征的大量数据集的模式。国内普遍接受的定义:具有数量巨大、来源多样、生成极快、且多变等特征并且难以用传统数据体系结构有效处理的数据。因此大数据的内涵不仅是数据本身,还包括大数据技术和大数据应用。,。,5.1大数据架构,第5章大数据可视化的关键技术,of,45,4,大数据的数据特征,有4V、5V、7V或11V特征等来描述。容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息(量); 速度(Velocity):指获得数据的速度,实时获取需要
3、的信息(速); 种类(Variety):结构化数据、半结构化数据和非结构化数据(类); 价值(value):价值密度低;合理运用大数据,以低成本创造高价值(价); 真实性(Veracity):数据的质量,数据清洗,去伪存真(真); 可视化(Visualization):可视化可推动大数据的普及应用(普); 粘性(Viscosity):改善用户体验,增加用户对媒体的粘性(粘); 上述定义都有一定的道理,特别是5V定义,目前已经被越来越多地接受。大数据时代最大的转变,就是放弃对因果关系的渴求,取而代之关注相关关系。也就是说,只要知道“是什么”,而不需要知道“为什么”。哪5V?,。,第5章大数据可视
4、化的关键技术,of,45,5,5.1大数据架构,一个概念体系,二个价值链维度,指它为大数据参考架构中使用的概念提供了一个构件层级分类体系,即“角色-活动-功能组件”,用于描述参考架构中的逻辑构件及其关系,“IT价值链”和“信息价值链”,其中“IT价值链”反映的是大数据作为一种新兴的数据应用范式对IT技术产生的新需求所带来的价值,“信息价值链”反映的是大数据作为一种数据科学方法论对数据到知识的处理过程中所实现的信息流价值。,大数据参考架构总体上可以概括为“一个概念体系,二个价值链维度”。,5.1大数据架构,第5章大数据可视化的关键技术,of,45,6,大数据参考架构图的整体布局按照代表大数据价值
5、链的两个维度来组织,即信息价值链(水平轴)和IT价值链(垂直轴)。,5.1大数据架构,第5章大数据可视化的关键技术,of,45,7,参考架构可以用于多个大数据系统组成的复杂系统(如堆叠式或链式系统),这样其中一个系统的大数据使用者可以作为另外一个系统的大数据提供者。,5.1大数据架构,第5章大数据可视化的关键技术,of,45,8,5.1大数据架构,第5章大数据可视化的关键技术,of,45,9,第5章大数据可视化的关键技术,of,45,10,收集活动用于处理与数据提供者的接口。它可以是一般服务,也可以是特定于应用的服务。预处理活动执行的任务类似于ETL的转换(transformation)环节,
6、包括数据验证、消洗、去除异常值、标准化、格式化或封装。 分析活动的任务是实现从数据中提取出知识。分析活动还可以使用大数据框架提供者的消息和通信框架在应用逻辑中传递数据和控制功能。 可视化活动的任务是将分析活动结果以最利于沟通和理解知识的方式展现给数据消费者。可视化的功能包括生成基于文本的报告或者以图形方式渲染分析结果。可视化的结果可以是静态的,存储在大数据框架提供者中供以后访问。可视化活动可以完全由应用程序实现,也可以使用大数据框架提供者提供的专门的可视化处理框架实现。访问活动主要集中在与数据消费者的通信和交互,访问活动与数据消费者的接口可以是同步或异步的,也可以使用拉或推软件机制进行数据传输
7、。,5.1大数据架构,5.1大数据架构,第5章大数据可视化的关键技术,of,45,11,第5章大数据可视化的关键技术,of,45,12,基础设施为其他角色执行活动提供存放和运行大数据系统所需要的资源。 数据平台通过相关的应用编程接口(APl)或其他方式,提供数据的逻辑组织和分发服务。 处理框架提供必要的基础软件以支持实现的应用能够处理具有4V特征的大数据。 消息和通信框架为可水平伸缩的集群的结点之间提供可靠队列、传输、数据接收等功能。它通常有2种实现模式,即点对点(point-to-point)模式和存储-转发 (store-and-forward)模式。 资源管理活动负责解决由于大数据的数据
8、量和速度特征而带来的对CPU、内存、I/0 等资源管理问题。有两种不同的资源管理方式,分别是框架内(intra-framework)资源管理和框架间(inter-framework)资源管理。,5.1大数据架构,5.1大数据架构,第5章大数据可视化的关键技术,of,45,13,5.1大数据架构,第5章大数据可视化的关键技术,of,45,14,5.1大数据架构,第5章大数据可视化的关键技术,of,45,15,5.2大数据核心技术,第5章大数据可视化的关键技术,of,45,16,数据收集,1,大数据时代,数据的来源及其广泛,数据有不同的类型和格式,同时呈现爆发性增长的态势,这些特性对数据收集技术也
9、提出了更高的要求。 数据收集需要从不同的数据源实时的或及时的收集不同类型的数据并发送给存储系统或数据中间件系统进行后续处理。,5.2大数据核心技术,第5章大数据可视化的关键技术,of,45,17,数据预处理,2,数据预处理的引入,将有助于提升数据质量,并使得后继数据处理、分析、可视化过程更加容易、有效,有利于获得更好的用户体验。 数据预处理形式上包括数据清理、数据集成、数据归约与数据转换等阶段。,第5章大数据可视化的关键技术,of,45,18,数据清理技术包括数据不一致性检测技术、脏数据识别技术、数据过滤技术、数据修正技术、数据噪声的识别与平滑技术等。数据集成把来自多哥数据源的数据进行集成,缩
10、短数据之间的物理距离,形成一个集中统一的(同构/异构)数据库、数据立方体、数据宽表与文件等。数据归约技术可以在不损害挖掘结果准确性的前提下,降低数据集的规模,得到简化的数据集。归约策略与技术包括维归约技术、数值归约技术、数据抽样技术等。经过数据转换处理后,数据被变换或统一。数据转换不仅简化处理与分析过程、提升时效性,也使得分析挖掘的模式更容易被理解。数据转换处理技术包括基于规则或元数据的转换技术、基于模型和学习的转换技术等。,5.2大数据核心技术,5.2大数据核心技术,第5章大数据可视化的关键技术,of,45,19,数据存储,3,分布式存储与访问是大数据存储的关键技术,它具有经济、高效、容错好
11、等特点。 目前的主要数据存储介质类型包括内存、磁盘、磁带等;主要数据组织管理形式包括按行组织、按列组织、按键值组织和按关系组织;主要数据组织管理层次包括按块级组织、文件级组织以及数据库级组织等。,第5章大数据可视化的关键技术,of,45,20,不同的存储介质和组织管理形式对应于不同的大数据特征和应用特点。,1.分布式文件系统分布式文件系统是由多个网络节点组成的向上层应用提供统一的文件服务的文件系统。 使用分布式文件系统时,无需关心数据存储在哪个节点上,只需像本地文件系统一样管理和存储文件系统的数据。目前常用的分布式磁盘文件系统有HDFS(Hadoop分布式文件系统)、GFS(Google分布式
12、文件系统)、KFS(Kosmos distributed file system)等;常用的分布式内存文件系统有Tachyon等。,5.2大数据核心技术,2.文档存储文档存储支持对结构化数据的访问,不同于关系模型的是,文档存储没有强制的架构。事实上,文档存储以封包键值对的方式进行存储且文档存储模型支持嵌套结构与键值存储不同的是,文档存储关心文档的内部结构。这使得存储引擎可以直接支持二级索引,从而允许对任意字段进行高效查询。主流的文档数据库有MongoDB、CouchDB、Terrastore、RavenDB等。,第5章大数据可视化的关键技术,of,45,21,3.列式存储列式存储将数据按行排序
13、,按列存储,将相同字段的数据作为一个列族来聚合存储。按列存储还可以承载更大的数据量,获得高效的垂直数据压缩能力,降低数据存储开销。使用列式存储的数据库产品有传统的数据库仓库产品,如Sybase IQ、InfiniDB、Vertica等,也有开源的数据库产品,如Hadoop Hbase、Infobright等。,5.2大数据核心技术,4.键值存储键值存储,即Key-Value存储,简称KV存储,它是NoSQL存储的一种方式。它的数据按照键值对的形式进行组织、索引和存储。键值存储一般不提供事务处理机制。主流的键值数据库产品有Redis、Apache Cassandra、Google Bigtabl
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 可视化 关键技术 ppt 课件

链接地址:https://www.31ppt.com/p-1428618.html