大数据存储与处理-概述.ppt
《大数据存储与处理-概述.ppt》由会员分享,可在线阅读,更多相关《大数据存储与处理-概述.ppt(35页珍藏版)》请在三一办公上搜索。
1、*,*,大数据的存贮和处理,赵永祥,*,*,课程内容,概述大规模文件系统和Mapreduce相似项发现数据流挖掘链接分析频繁项集聚类Web广告推荐系统,教材,http:/infolab.stanford.edu/ullman/mmds/book.pdf大数据-互联网大规模数据挖掘与分布式处理,*,*,*,*,第一章数据挖掘的基本概念,11 数据挖掘的定义1.2 数据挖掘的统计限制13 相关知识,数据挖掘的定义,数据挖掘是数据模型的发现过程。什么是模型?统什模型:研究可见数据遵从的总体概率分布。如已有一系列数据,先猜想服从高斯分布,从数据获取模型参数,验证与数据分布是附合机器学习。将数据当作某类
2、算法的训练集训练算法。然后再用这个算法分析未知的数据,*,*,什么是模型?,机器学习的长处。当对要在数据中寻找的目标一无所知的时候。如不知道是哪些因素影响人们对影片的喜好。netflix竞赛。如目标能明确描述,机器学习方法并不成功。如在web上寻找个人简历。机器学习方法.不如关键词或者短语更准确,*,*,建模的计算方法,数据挖掘已被看成是一个算法问题。数据模型就是提供复杂查询的答案。除了统计建模,其它大部分建模方法可分为如下两类对数据进行简要汇总从数据中抽取最突出的特征来代替数据并将剩余内容忽略。,*,*,数据汇总,pagerank。谷歌成功的关键算法之一。Web的复杂结构可以由每个页面的pa
3、gerank描述,反映了一个web上的随机游走者在任意时刻处于该页面的概率。聚类。数据被看成是多维空间的点。空间相互邻近的点被认为是相同的类别。每个类别可以析括表示,如质心或者是到质心的平均距离。,*,*,*,*,特征抽取,从数据中寻找某个现象的特殊样例,用这些样例来表示数据。介绍两种方法:频繁项集:在很多购物篮/订单里面寻找同时出现的项集/商品。相似项:数据可以描述为一系列的集合。寻找共同元素较多的集合。亚马逊网站的顾客可以理解为他购买商品的集合。寻找相似的集合也就是寻找具有类似兴趣的人,把这些人购买过的东西推荐给该顾客。也称为协同过滤,数据挖掘的统计限制,2002年,布什政府提出一项对所有
4、数据进行挖掘的计划,没有被国会通过。目的是追逐恐怖活动问题:如果能够获得所有的数据,并且想从中获得恐怖活动的信息。是否会导致误报很多无辜的行为?,*,*,Bonferronis Principle,随着数据规模的增加,任何数据都会显现出一些不同寻常的特征,这些特征看上去非常重要,实际上却并不重要。Bonferronis Principle。在数据随机性假设的基础上,计算所寻找的事件的发生的期望值,如果该期望值大于找到的真实事件的数目,则所找到的事件是假象。,*,*,13,关于整体情报预警的故事,设有一群坏人会偶尔在酒店聚会策划阴谋想找出那些同一天在同一个酒店至少出现两次的人群.,14,假设,1
5、09 可疑人.1000 days.每个人去酒店的概率 1%(1000天里住10天酒店).酒店容纳100 人(有 105 个酒店).每个人行为都是随机的。数据挖掘能发现可疑行为吗?,15,Calculations(1),人员 p 和人员 q 同一天在同一个酒店出现的概率:1/100 1/100 10-5=10-9.人员p 和 q 在d1 和 d2 出现在同一个酒店的概率:10-9 10-9=10-18.1000天任意两天的排列组合:5105.,16,Calculations(2),人员 p 和 q 在任意两天出现在同一个酒店的概率:5105 10-18=510-13.可能的人数是10亿,任意两个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 存储 处理 概述
链接地址:https://www.31ppt.com/p-4971228.html