大数据的处理和分析计算机科学导论第十讲.ppt
《大数据的处理和分析计算机科学导论第十讲.ppt》由会员分享,可在线阅读,更多相关《大数据的处理和分析计算机科学导论第十讲.ppt(57页珍藏版)》请在三一办公上搜索。
1、大数据的处理和分析计算机科学导论第十讲,计算机科学技术学院陈意云0551-63607043,http:/,课 程 内 容,课程内容围绕学科理论体系中的模型理论,程序理论和计算理论1.模型理论关心的问题 给定模型M,哪些问题可以由模型M解决;如何比较模型的表达能力2.程序理论关心的问题给定模型M,如何用模型M解决问题包括程序设计范型、程序设计语言、程序设计、形式语义、类型论、程序验证、程序分析等3.计算理论关心的问题给定模型M和一类问题,解决该类问题需多少资源,2,本次讲座与这些内容关系不大,讲 座 提 纲,大数据的魅力数据挖掘、大数据、大数据案例、大数据的特点大数据时代的思维变革样本和全体、精
2、确性和混杂性、因果关系和相关关系大数据的处理几种主要处理方式、MapReduce编程模型大数据的分析关键技术概述、PageRank初步,3,数据挖掘数据挖掘的定义1.从数据中提取出隐含的、过去未知的、有价值的潜在信息2.从大量数据或者数据库中提取有用信息的科学相关概念:知识发现1.数据挖掘是知识发现过程中的一步2.粗略看:数据预处理数据挖掘数据后处理预处理:将未加工输入数据转换为适合处理的形式后处理:如可视化,便于从不同视角探查挖掘结果,大数据的魅力,4,数据挖掘典型事例:购物篮分析顾客一次购买商品 1面包、黄油、尿布、牛奶 2咖啡、糖、小甜饼、鲑鱼 3面包、黄油、咖啡、尿布、牛奶、鸡蛋 4面
3、包、黄油、鲑鱼、鸡 5鸡蛋、面包、黄油 6鲑鱼、尿布、牛奶 7面包、茶叶、糖、鸡蛋 8咖啡、糖、鸡、鸡蛋 9面包、尿布、牛奶、盐10茶叶、鸡蛋、小甜饼、尿布、牛奶,大数据的魅力,5,数据挖掘典型事例:购物篮分析顾客一次购买商品 1面包、黄油、尿布、牛奶 2咖啡、糖、小甜饼、鲑鱼 3面包、黄油、咖啡、尿布、牛奶、鸡蛋 4面包、黄油、鲑鱼、鸡 5鸡蛋、面包、黄油 6鲑鱼、尿布、牛奶 7面包、茶叶、糖、鸡蛋 8咖啡、糖、鸡、鸡蛋 9面包、尿布、牛奶、盐10茶叶、鸡蛋、小甜饼、尿布、牛奶经关联分析,可发现顾客经常同时购买的商品:尿布牛奶,大数据的魅力,6,大数据大数据,或称海量数据,指所涉及的数据量规
4、模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息例如:Google每天有来自全球30亿条搜索指令 每天都有成千上万的人通过Google搜索信息,从出游的路线和耗时、治疗某种疾病的方法和某研究方向的最新学术资料,各式各样的搜索要求都有 这样的搜索引擎无疑极大地方便了人们的生活和工作,大数据的魅力,7,大数据大数据,或称海量数据,指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息这一系列搜索数据从侧面显示出搜索这些信息的人的本身情况,比如他们的想法、需求、忧虑等非常有价值的信息如果这些搜索数据能准确地反映人们的
5、生活和工作状况,那么就有可能利用这些信息来察觉商业趋势、避免疾病扩散、打击犯罪、测定实时交通路况和预测选举结果等,大数据的魅力,8,大数据大数据,或称海量数据,指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息与小数据集的比较:在总数据量相同的情况下,与个别分析独立的小型数据集相比,将各个小型数据集合并后进行大数据分析可得出许多额外的信息和数据关联性这正是大型数据集盛行的原因数据挖掘则是探讨用以解析大数据的方法,大数据的魅力,9,大数据案例谷歌预测冬季流感的传播2008年11月谷歌公司启动“谷歌流感趋势”(Google Flu Trends,
6、GFT)项目GFT项目把5000万个美国人最频繁检索的词项与美国疾病预防控制中心告知的2003年2008年季节性流感传播期间的数据进行比较,以确定相关检索词项为测试这些检索词项的使用频率与流感在时间和空间上传播之间的联系,GFT共处理了4.5亿个不同的数学模型,大数据的魅力,10,大数据案例谷歌预测冬季流感的传播为测试这些检索词项的使用频率与流感在时间和空间上传播之间的联系,GFT共处理了4.5亿个不同的数学模型在把得出的预测与2007年和2008年疾病预防控制中心记录的实际流感病例进行对比后,GFT的软件发现了45个检索词项的组合把这些检索词项用于一个特定的数学模型后,其预测与官方数据相关性
7、高达97%,大数据的魅力,11,大数据案例谷歌预测冬季流感的传播2009年谷歌把研究成果发表在自然杂志上,这篇引人注目的论文令公共卫生官员和计算机科学家感到震惊文章不仅预测了流感在全美的传播,而且具体到特定的地区和州并且预测非常及时,不像疾病预防控制中心的信息会有一两周的延迟(因为人们从患病到求医会滞后,信息从医院传到疾控中心也需要时间,疾控中心每周只进行一次数据汇总)信息滞后两周对一种飞速传播的疾病是致命的,大数据的魅力,12,大数据案例谷歌预测冬季流感的传播在论文发表后的几周内,出现了一种称为甲型H1N1的新流感病毒,它在短短几周内迅速传播开来,全球的公共卫生机构都担心一场致命的流行病即将
8、来袭这时,与习惯性滞后的官方数据相比,谷歌的预测是一个更有效、更及时的指示标,公共卫生机构的官员因此获得了非常有价值的数据信息谷歌的方法不需要分发口腔试纸和联系医生,因为它是建立在大数据的基础之上,大数据的魅力,13,大数据的魅力,大数据案例谷歌预测冬季流感的传播这是当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据的分析,获得巨大价值的产品和服务,或深刻的洞见大数据不仅会变革公共卫生,也会变革商业、变革思维,改变政府与民众关系的方法,开启重大的时代转型,14,大数据的魅力,大数据案例谷歌预测冬季流感的传播2013年2月,GFT再次上头条,不是因为什么新的成就,而是因2013年
9、1月,美国流感发生率达到峰值,GFT事先的估计比实际数据高两倍造成这种结果的原因:大数据傲慢(Big Data Hubris):认为自己拥有的数据是总体,可以完全取代科学抽样基础上形成的传统小数据,而非作为后者的补充 还有搜索算法变化等原因大数据运用的典范GFT的失败并不能够抹灭大数据本身的价值,15,大数据的魅力,大数据的特点体量巨大(Volume)数据集合的规模不断扩大,已从GB(1024MB)到TB(1024GB)再到PB级,甚至已经开始以EB和ZB来计数 至今,人类生产的所有印刷材料的数据量是200PB 未来10年,全球大数据将增加50倍,管理数据仓库的服务器的数量将增加10倍,16,
10、大数据的魅力,大数据的特点种类繁多(Variety)数据种类繁多,并且被分为结构化、半结构化和非结构化的数据 半结构化和非结构化的数据,包括网络日志、传感器数据、音频、视频、图片、地理位置信息等,占有量越来越大,已远远超过结构化数据,17,大数据的魅力,大数据的特点价值密度低(Value)数据总体的价值巨大,但价值密度很低 以视频为例,在长达数小时连续不断的视频监控中,有用数据可能仅一二秒 另一极端是各个数据都有贡献,但单个数据价值很低,18,大数据的魅力,大数据的特点速度快(Velocity)数据往往以数据流的形式动态快速地产生,具有很强的时效性 用户只有把握好对数据流的掌控才能有效利用这些
11、数据 例如,一天之内需要审查500万起潜在的贸易欺诈案件;需要分析5亿条日实时呼叫的详细记录,以预测客户的流失率,19,大数据时代的思维变革,数据采集和数据处理技术已经发生了翻天覆地的变化,人们的思维和方法要跟得上这个变化大数据时代的精髓在于人们分析信息时的三个转变,这些转变将改变人们决策的制定和对表象的理解,20,大数据时代的思维变革,变革一 更多:不是随机样本,而是全体数据1.随机抽样:用最少的数据获得最多的信息过去由于获取和分析全体数据的困难,抽样调查是一种常用统计分析方法。它根据随机原则从总体中抽取部分实际数据进行调查,并运用概率估计方法,根据样本数据推算总体相应的数量指标抽样分析的精
12、确性随抽样随机性的增加而提高,与样本数量的增加关系不大。抽样随机性高时,分析的精度能达到把全体作为样本调查时的97%样本选择的随机性比样本数量更重要,21,大数据时代的思维变革,变革一 更多:不是随机样本,而是全体数据1.随机抽样:用最少的数据获得最多的信息 抽样分析的成功依赖于抽样的随机性,但实现抽样的随机性非常困难当想了解更深层次的细分领域的情况时,随机抽样方法不一定有效,即在宏观领域起作用的方法在微观领域可能失去了作用随机抽样需要严密的安排和执行,人们只能从抽样数据中得出事先设计好的问题的结果,22,大数据时代的思维变革,变革一 更多:不是随机样本,而是全体数据2.全体数据:用全体数据可
13、对数据进行深度探讨流感趋势预测分析了整个美国几十亿条互联网检索记录,使得它能提高微观层面分析的准确性,甚至能够推测某个特定城市的流感状况信用卡诈骗需通过观察异常情况来识别,这只有在掌握所有的数据时才能做到社会科学是被“样本=全体”撼动得最厉害的一门学科。这门学科过去非常依赖于样本分析、研究和调查问卷。当记录下人们的平常状态,就不用担心在做研究和调查问卷时存在的偏见了,23,大数据时代的思维变革,变革二 更杂:不是精确性,而是混杂性 对小数据而言,最基本和最重要的要求就是减少错误,保证质量。因为收集的数据较少,应确保每个数据尽量精确,以保证分析结果的准确性允许不精确数据是大数据的一个亮点,而非缺
14、点。因为放松了容错的标准,就可以掌握更多数据;而掌握大量新型数据时,精确性就不那么重要了例如,与服务器处理投诉时的数据进行比较,用语音识别系统识别呼叫中心接到的投诉会产生不太准确的结果,但它有助于把握事情的大致情况不精确的大量新型数据能帮助掌握事情发展趋势,24,大数据时代的思维变革,变革二 更杂:不是精确性,而是混杂性执迷于精确性是信息缺乏时代的产物,大数据时代要求重新审视精确性的优劣,如果将传统的思维模式运用于数字化、网络化的21世纪,就会错过重要信息,失去做更多事情,创造出更好结果的机会另一方面,需要与数据增加引起的各种混乱(数据格式不一致,数据错误率增加等)做斗争。错误并不是大数据的固
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 处理 分析 计算机科学 导论 第十

链接地址:https://www.31ppt.com/p-5310570.html