大数据可视化培训ppt课件.ppt
,全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用,大数据,刘鹏主编张燕张重生张志立 副主编,BIG DATA,刘 鹏,全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用,of,41,3,7.1数据可视化基础,第七章 大数据可视化,of,41,4,大数据可视化核心问题 随着互联网技术的发展,尤其是移动互联技术的发展,网络空间的数据量呈现出爆炸式增长。如何从这些数据中快速获取自己想要的信息,并以一种直观、形象的方式展现出来?这就是大数据可视化要解决的核心问题。数据可视化解释 数据可视化,最早可追溯到20世纪50年代,它是一门关于数据视觉表现形式的科学技术研究。数据可视化是一个处于不断演变之中的概念,其边界在不断地扩大,主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形图像处理、计算机视觉及用户界面,通过表达、建模,以及对立体、表面、属性及动画的显示,对数据加以可视化解释。本章重点讲解 与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。本章将重点对大数据可视化的基础知识、基本概念及大数据可视化的常用工具进行详细讲解。,7.1数据可视化基础,第七章 大数据可视化,可视化的基本特征,易懂性,必然性,片面性,专业性,数据可视化的片面性特征要求可视化模式不能替代数据本身,只能作为数据表达的一种特定形式,专业化特征是人们从可视化模型中提取专业知识的环节,它是数据可视化应用的最后流程,可视化可以使得碎片化的数据转换为具有特定结构的知识,从而为决策支持提供帮助,大数据所产生的数据量必然要求人们对数据进行归纳总结,对数据的结构和形式进行转换处理,of,41,5,7.1.1可视化的基本特征,7.1数据可视化基础,第七章 大数据可视化,7.1.2可视化的目标和作用,数据可视化的作用主要包括数据表达、数据操作和数据分析3个方面,它是以可视化技术支持计算机辅助数据认识的3个基本阶段。,数据表达,数据表达是通过计算机图形图像技术来更加友好地展示数据信息,方便人们阅读、理解和运用数据。常见的形式如文本、图表、图像、二维图形、三维模型、网络图、树结构、符号和电子地图等。,数据操作,数据操作是以计算机提供的界面、接口、协议等条件为基础完成人与数据的交互需求,数据操作需要友好的人机交互技术、标准化的接口和协议支持来完成对多数据集合或者分布式的操作。,数据分析,数据可视化可以有效地表达数据的各类特征,帮助人们推理和分析数据背后的客观规律,进而获得相关知识,提高人们认识数据的能力和利用数据的水平。,of,41,6,7.1数据可视化基础,第七章 大数据可视化,7.1.3数据可视化流程,数据获取,主动式是以明确的数据需求为目的,如卫星影像、测绘工程等;被动式是以数据平台为基础,由数据平台的活动者提供数据来源,如电子商务、网络论坛等。,数据处理,数据处理是指对原始的数据进行质量分析、预处理和计算等步骤。数据处理的目标是保证数据的准确性、可用性。,1,2,可视化模式,可视化模式是数据的一种特殊展现形式,常见的可视化模式有标签云、序列分析、网络结构、电子地图等。可视化模式的选取决定了可视化方案的雏形。,可视化应用,可视化应用主要根据用户的主观需求展开,最主要的应用方式是用来观察和展示,通过观察和人脑分析进行推理和认知,辅助人们发现新知识或者得到新结论。,3,4,of,41,7,全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用,of,41,8,7.2大数据可视化方法,第七章 大数据可视化,7.2.1文本可视化,标签云,of,41,9,如图所示是一种称为标签云(Word Clouds或Tag Clouds)的典型的文本可视化技术。它将关键词根据词频或其他规则进行排序,按照一定规律进行布局排列,用大小、颜色、字体等图形属性对关键词进行可视化。一般用字号大小代表该关键词的重要性,该技术多用于快速识别网络媒体的主题热度。,7.2大数据可视化方法,第七章 大数据可视化,7.2.1动态文本时序信息可视化,of,41,10,7.2大数据可视化方法,第七章 大数据可视化,7.2.2网络图可视化,(1)Nodal研究人员及其组织机构社会网络图,(2)基于节点连接的图和树可视化方法,of,41,11,7.2大数据可视化方法,第七章 大数据可视化,7.2.2网络图可视化,of,41,12,(3)基于空间填充的树可视化,(4)基于边捆绑的大规模密集图可视化,7.2大数据可视化方法,第七章 大数据可视化,7.2.3时空数据可视化,流式地图,结合了捆绑技术的流式地图,结合了密度图技术的流式地图,of,41,13,7.2大数据可视化方法,第七章 大数据可视化,7.2.3时空数据可视化,时空立方体,融合散点图与密度图技术的时空立方体,融合堆积图技术的时空立方体,of,41,14,7.2大数据可视化方法,第七章 大数据可视化,7.2.4多维数据可视化,of,41,15,1、散点图( Scatter Plot)散点图(Scatter Plot)是最为常用的多维可视化方法。二维散点图将多个维度中的两个维度属性值集合映射至两条轴,在二维轴确定的平面内通过图形标记的不同视觉元素来反映其他维度属性值。,二维散点图能够展示的维度十分有限,研究者将其扩展到三维空间,通过可旋转的Scatter Plot方块(dice)扩展了可映射维度的数目,如图所示。散点图适合对有限数目的较为重要的维度进行可视化,通常不适于需要对所有维度同时进行展示的情况。,7.2大数据可视化方法,第七章 大数据可视化,7.2.4多维数据可视化,of,41,16,7.2大数据可视化方法,第七章 大数据可视化,7.2.4多维数据可视化,平行坐标是研究和应用最为广泛的一种多维可视化技术,将维度与坐标轴建立映射,在多个平行轴之间以直线或曲线映射表示多维信息。,平行坐标多维可视化技术,集成了散点图和柱状图的平行坐标工具,平行坐标图聚簇可视化,of,41,17,全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用,of,41,18,7.3大数据可视化软件与工具,第七章 大数据可视化,7.3.1Excel,利用Excel的可视化规则实现数据的可视化展示,Excel图表样式,利用Excel图表中的折线图制作的“工资”和“年龄”数据展示,Excel是Microsoft Office的组件之一,是由Microsoft为Windows和Apple Macintosh操作系统的计算机编写和运行的一款表格计算软件。Excel 是微软办公套装软件的一个重要组成部分,它可以进行各种数据的处理、统计分析、数据可视化显示及辅助决策操作,广泛地应用于管理、统计、财经、金融等众多领域。,of,41,19,7.3大数据可视化软件与工具,第七章 大数据可视化,7.3.2Processing,Processing在数据可视化领域有着广泛的应用,可制作信息图形、信息可视化、科学可视化和统计图形等。下面通过一个简单实例来认识一下如何利用Processing实现数据的可视化展示。,美国各州GDP增长率(数据随机生成),of,41,20,7.3大数据可视化软件与工具,第七章 大数据可视化,7.3.2Processing,第一步,声明(初始化)变量,代码如下:PImage mapImage;Table locationTable;Table nameTable;int rowCount;Table dataTable;float dataMin = MAX_FLOAT;float dataMax = MIN_FLOAT;,of,41,21,7.3大数据可视化软件与工具,第七章 大数据可视化,7.3.2Processing,第二步,初始化画布,加载(生成)数据,代码如下:void setup() size(640, 400); mapImage = loadImage(map.png); /加载地图 locationTable = new Table(locations.tsv);/加载位置信息 nameTable = new Table(names.tsv);/加载名称信息 rowCount = locationTable.getRowCount(); dataTable = new Table(random.tsv);/加载随机数据 for (int row = 0; row dataMax) dataMax = value; if (value dataMin) dataMin = value; PFont font = loadFont(Univers-Bold-12.vlw); textFont(font); smooth(); noStroke(); ,of,41,22,7.3大数据可视化软件与工具,第七章 大数据可视化,7.3.2Processing,第三步,调用绘制函数绘制图形,代码如下:void draw() background(255); image(mapImage, 0, 0); for (int row = 0; row = 0) radius = map(value, 0, dataMax, 1.5, 15); fill(#333366); / blue else radius = map(value, 0, dataMin, 1.5, 15); fill(#ec5166); / red ellipseMode(RADIUS); ellipse(x, y, radius, radius); if (dist(x, y, mouseX, mouseY) radius+2) fill(0); textAlign(CENTER); String name = nameTable.getString(abbrev, 1); text(name + + value, x, y-radius-4); ,7.3大数据可视化软件与工具,第七章 大数据可视化,7.3.3NodeXL,NodeXL 不仅具备常见的分析功能,如计算中心性、Page Rank值、网络连通度、聚类系数等,还能对暂时性网络进行处理。在布局方面,NodeXL主要采用力导引布局方式。NodeXL 的一大特色是可视化交互能力强,具有图像移动、变焦和动态查询等交互功能。其另一特色是可直接与互联网相连,用户可通过插件或直接导入E-mail或微博网页中的数据。,准备数据,步骤,生成顶点,生成网络图,of,41,24,7.3大数据可视化软件与工具,第七章 大数据可视化,of,41,25,1、准备数据,从开始菜单中打开一个NodeXL的模板,在“Edges”工作表中输入准备好的数据,如图所示。每条边包含两个Vertex及其相关的属性(Color、Width、Label等)。,NodeXL主要研究人员及其所在研究组织,在“Edge”工作表中输入边的信息,7.3大数据可视化软件与工具,第七章 大数据可视化,of,41,26,2、生成顶点,在“Edge”工作表中录入边的信息后,打开“Graph Metrics”对话框,勾选所有可选项,单击“Calculate Metri”按钮,此时系统会自动识别出所有的顶点信息,并将其记录在“Vertex”工作表中,同时还可以得到图形度量方面的有关数值,例如,图形类型、顶点个数、边数目、重复的边数目、总边数、图形密度等数据。然后,打开“Autofill Columns”对话框,设置自动填充的选项值(这些值来自计算出的图形度量数据)。用户也可以在“Vertex”工作表中对每个顶点的属性进行自定义设置,使得最终的网络图呈现出不同的样式。本例中设置每个顶点“Shape”属性值为“Image”,“Image File”输入顶点的图片地址(也可以是URL)。,“Graph Metrics”对话框,“Autofill Columns”对话框,系统生成的“Vertex”工作表数据,7.3大数据可视化软件与工具,第七章 大数据可视化,of,41,27,3、生成网络图,上述两个步骤设置完毕后,单击“Refresh Graph”按钮即可看到最终的网络图。从网络图中可以清楚地看到参与NodeXL研究的组织机构(内层节点)及研究人员(外层节点)。,使用可以得到图形度量方面的有关数值,这些数值清晰明了,获得的基本数值有图形类型、顶点个数、边数目、重复的边数目、总边数、图形密度等数据。,最终的网络图,7.3大数据可视化软件与工具,第七章 大数据可视化,7.3.4ECharts,ECharts制作的图表,of,41,28,7.3大数据可视化软件与工具,第七章 大数据可视化,of,41,29,ECharts图表工具为用户提供了详细的帮助文档,这些文档不仅介绍了每类图表的使用方法,还详细介绍了各类组件的使用方法,每类图表都提供了丰富的实例。用户在使用时可以参考实例提供的代码,稍加修改就可以满足自己的图表展示需求。接下来结合ECharts提供的一个 2010年世界人口分布图的实例来详细介绍一下ECharts的使用方法。如图所示是2010年世界人口数据。,2010年世界人口数据,7.3大数据可视化软件与工具,第七章 大数据可视化,of,41,30,实现代码:,option = title : text: World Population (2010), subtext: from United Nations, Total population, both sexes combined, as of 1 July (thousands), sublink : http:/esa.un.org/wpp/Excel-Data/population.htm, left: center, top: top , tooltip : trigger: item, formatter : function (params) var value = (params.value + ).split(.); value = value0.replace(/(d1,3)(?=(?:d3)+(?!d)/g, $1,) + . + value1; return params.seriesName + + params.name + : + value; , toolbox: show : true, orient : vertical, left: right, top: center, feature : mark : show: true, dataView : show: true, readOnly: false, restore : show: true, saveAsImage : show: true ,visualMap: min: 0, max: 1000000, text:High,Low, realtime: false, calculable : true, color: orangered,yellow,lightskyblue , series : name: World Population (2010), type: map, mapType: world, /world、china、europe等 roam: true, itemStyle: emphasis:label:show:true , data: /此处是我们要展示的数据(如果是网络动态数据,可以在程序中用json数据实时传递过来name : China, value : 1359821.465,name : India, value : 1205624.648,name : United States of America, value : 312247.116, ;,7.3大数据可视化软件与工具,第七章 大数据可视化,of,41,31,上方的图所示是利用ECharts展示的可交互的世界人口分布图。用户通过将鼠标移入不同的国家(地区)内部,即可查看到该国家(地区)的人口数量;左下角的垂直滚动条可以用于设置地图上可视数据的最大值和最小值,用户可以通过调整滑块来展示某个区间的数据。例如,下方图所示为人口数量超过1亿的国家(地区)分布情况。,利用ECharts展示的可交互的世界人口分布图,人口数量超过1亿的国家(地区)分布情况,7.3大数据可视化软件与工具,第七章 大数据可视化,of,41,32,通过对ECharts案例代码的分析,当用户需要在地图上展示自己的数据时,只需要更改相关的几个属性值即可。如图所示是借助ECharts制作的许昌学院2015年新生生源分布图。在上面的实例代码基础上要实现这个实际问题的图表展示非常简单,只需要更改代码中的两处即可:一处是地图类型(mapType),将字符串“world”改为“china”;另一处是数据(Data),这个根据具体的需求,将数据传入ECharts工具中。,借助ECharts 制作的2015年新生生源分布图(按省、直辖市、自治区统计),1数据可视化有哪些基本特征?2简述可视化技术支持计算机辅助数据认识的3个基本阶段。3数据可视化对数据的综合运用有哪几个步骤?4简述数据可视化的应用。5简述文本可视化的意义。6网络(图)可视化有哪些主要形式?7多数据可视化主要应用在哪种场景? 8大数据可视化软件和工具有哪些?9如何应用Excel表格功能实现数据的可视化展示?10查阅相关资料,实例演示Processing的使用。11查阅相关资料,实例演示Nodal的使用。12查阅相关资料,实例演示EChart的使用。,习题:,大数据实验平台:,提供Hadoop、HBase、Hive、Spark、Storm等大数据集群实验环境和快速搭建服务从入门到实战,帮助用户构建大数据课程和实训体系提供配套教程、课件和视频,大数据资料和交流中心,云计算资料和交流中心,BDRack大数据实验一体机,虚拟出百套集群,并行开展大数据实验预装各种流行云计算和大数据平台提供配套实验教程、课件、PPT和培训,刘鹏看未来,云计算头条,云创大数据,中国大数据,微信号: chinacloudnj,微信号: cstorbigdata,资源丰富、分析深入、更新及时的云计算知识共享平台。,微信号:lpoutlook,微信号: cStor_cn,国内大数据企业。提供云存储、云数据库、云视频、云传输产品和解决方案。,眼光决定成败,与刘鹏教授看未来。刘鹏,清华博士,云计算作者。,分享大数据技术,剖析大数据案例,讨论大数据话题。,感谢聆听,11、人生的某些障碍,你是逃不掉的。与其费尽周折绕过去,不如勇敢地攀登,或许这会铸就你人生的高点。12、有些压力总是得自己扛过去,说出来就成了充满负能量的抱怨。寻求安慰也无济于事,还徒增了别人的烦恼。13、认识到我们的所见所闻都是假象,认识到此生都是虚幻,我们才能真正认识到佛法的真相。钱多了会压死你,你承受得了吗?带,带不走,放,放不下。时时刻刻发悲心,饶益众生为他人。14、梦想总是跑在我的前面。努力追寻它们,为了那一瞬间的同步,这就是动人的生命奇迹。15、懒惰不会让你一下子跌倒,但会在不知不觉中减少你的收获;勤奋也不会让你一夜成功,但会在不知不觉中积累你的成果。人生需要挑战,更需要坚持和勤奋!16、人生在世:可以缺钱,但不能缺德;可以失言,但不能失信;可以倒下,但不能跪下;可以求名,但不能盗名;可以低落,但不能堕落;可以放松,但不能放纵;可以虚荣,但不能虚伪;可以平凡,但不能平庸;可以浪漫,但不能浪荡;可以生气,但不能生事。17、人生没有笔直路,当你感到迷茫、失落时,找几部这种充满正能量的电影,坐下来静静欣赏,去发现生命中真正重要的东西。18、在人生的舞台上,当有人愿意在台下陪你度过无数个没有未来的夜时,你就更想展现精彩绝伦的自己。但愿每个被努力支撑的灵魂能吸引更多的人同行。19、积极的人在每一次忧患中都看到一个机会,而消极的人则在每个机会中看到了某种忧患。莫找借口失败,只找理由成功。20、每一个成就和长进,都蕴含着曾经受过的寂寞、洒过的汗水、流过的眼泪。许多时候不是看到希望才去坚持,而是坚持了才能看到希望。1、有时候,我们活得累,并非生活过于刻薄,而是我们太容易被外界的氛围所感染,被他人的情绪所左右。2、身材不好就去锻炼,没钱就努力去赚。别把窘境迁怒于别人,唯一可以抱怨的,只是不够努力的自己。3、大概是没有了当初那种毫无顾虑的勇气,才变成现在所谓成熟稳重的样子。4、世界上只有想不通的人,没有走不通的路。将帅的坚强意志,就像城市主要街道汇集点上的方尖碑一样,在军事艺术中占有十分突出的地位。5、世上最美好的事是:我已经长大,父母还未老;我有能力报答,父母仍然健康。6、没什么可怕的,大家都一样,在试探中不断前行。7、时间就像一张网,你撒在哪里,你的收获就在哪里。纽扣第一颗就扣错了,可你扣到最后一颗才发现。有些事一开始就是错的,可只有到最后才不得不承认。8、世上的事,只要肯用心去学,没有一件是太晚的。要始终保持敬畏之心,对阳光,对美,对痛楚。9、别再去抱怨身边人善变,多懂一些道理,明白一些事理,毕竟每个人都是越活越现实。10、山有封顶,还有彼岸,慢慢长途,终有回转,余味苦涩,终有回甘。11、失败不可怕,可怕的是从来没有努力过,还怡然自得地安慰自己,连一点点的懊悔都被麻木所掩盖下去。不能怕,没什么比自己背叛自己更可怕。12、跌倒了,一定要爬起来。不爬起来,别人会看不起你,你自己也会失去机会。在人前微笑,在人后落泪,可这是每个人都要学会的成长。13、要相信,这个世界上永远能够依靠的只有你自己。所以,管别人怎么看,坚持自己的坚持,直到坚持不下去为止。14、也许你想要的未来在别人眼里不值一提,也许你已经很努力了可还是有人不满意,也许你的理想离你的距离从来没有拉近过.但请你继续向前走,因为别人看不到你的努力,你却始终看得见自己。15、所有的辉煌和伟大,一定伴随着挫折和跌倒;所有的风光背后,一定都是一串串揉和着泪水和汗水的脚印。16、成功的反义词不是失败,而是从未行动。有一天你总会明白,遗憾比失败更让你难以面对。17、没有一件事情可以一下子把你打垮,也不会有一件事情可以让你一步登天,慢慢走,慢慢看,生命是一个慢慢累积的过程。18、努力也许不等于成功,可是那段追逐梦想的努力,会让你找到一个更好的自己,一个沉默努力充实安静的自己。19、你相信梦想,梦想才会相信你。有一种落差是,你配不上自己的野心,也辜负了所受的苦难。20、生活不会按你想要的方式进行,它会给你一段时间,让你孤独、迷茫又沉默忧郁。但如果靠这段时间跟自己独处,多看一本书,去做可以做的事,放下过去的人,等你度过低潮,那些独处的时光必定能照亮你的路,也是这些不堪陪你成熟。所以,现在没那么糟,看似生活对你的亏欠,其实都是祝愿。,