大数据及信息安全技术(中科大 熊焰)课件.pptx
《大数据及信息安全技术(中科大 熊焰)课件.pptx》由会员分享,可在线阅读,更多相关《大数据及信息安全技术(中科大 熊焰)课件.pptx(99页珍藏版)》请在三一办公上搜索。
1、大数据及信息安全最新技术,中国科学技术大学 熊焰,汇 报 内 容,汇 报 内 容,大数据“浪潮汹涌”,“人人都知道,都说好,但究竟是什么,怎么做?”有关大数据浪潮的贴切描述,真有很“大”的数据么?,反映到数据量上是什么情况?,“网上一分钟,人间一万年!”,大数据的背景意义信息爆炸增长,*,GB,TB,PB,EB,ZB,地球上至今总共的数据量:在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011 年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!,如此庞大数据的源
2、头是什么?,1PB=250字节1EB=260字节1ZB=270字节,大数据的背景意义信息爆炸增长,大数据的背景意义感知设备的普及,大数据的背景意义物联网体系架构,大数据背景意义社交网络的承载,大数据的背景意义社交网络承载,商业模式驱动(新壶装旧酒),内在需求驱动(新酒装新壶),“蓝蓝的天上白云飘,白云下面数据跑”云计算技术是大数据发展的基础和支撑,云计算,大数据,大数据的背景:网络互联技术发展、感知设备普及以及物联网架构成熟,并由社交网络承载所引起的信息爆炸。云计算为其提供强大的支撑动力!,大数据的背景意义云计算为支撑,大数据的概念和内涵,“大数据:或称巨量数据、海量数据、大资料,指的是所涉及
3、的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。”维基百科,大数据的概念和内涵,“大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。尺寸并无主观度量。”麦肯锡,大数据的概念和内涵,仅仅是“大”?,比“大”更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值,海量,异构,劣质,高维,大数据的背景意义大数据的特性,体量Volume,多样性Variety,价值密度Value,速度Velocity,非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍,
4、大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义,大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等),实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效,大,杂,“海量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。,低,快,大数据的背景意义大数据的4V特性,海量沙漠,充满杂质,只为粒金,争分夺秒,大,杂,“海量化(Volume)、多样化(Variety
5、)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。,低,快,大数据的背景意义大数据的4V特性,大数据科研属于“数据密集型”的科学发现第四范式,2007年,已故的图灵奖得主吉姆格雷(Jim Gray),大数据研究的科学价值,李国杰(中国工程院院士,大数据专委会主任),“现代生命科学信息已具备大数据公认的4V特征,同时,大数据彻底颠覆了传统生命科学以假说指导实验和以模式生物为研究主体的科学发现模式,使生命科学研究开始进入“数据密集型”的科学发现第四范式时代。”,赵国屏(中科院院士,国家人类基因组南方中心执行主任,分子微生
6、物学专家),大数据研究的科学价值,Gartner2013年技术成熟度曲线,大数据正处于高速发展的巅峰期(热度巅峰),但在研究中仍然面临严峻挑战,亟需研究突破。待热潮之后,虽可能转向低谷期,但未来将走向成熟!,Gartner2013年技术成熟度曲线,大数据的数据够“大”,数据不再是稀缺资源,不能像小数据时代那样,用最小的数据获得最多的信息;而应该要拿到与领域相关的全数据,大数据的数据够“杂”,来源广泛,格式五花八门,用户需从海量数据中提炼有价值信息,个体数据(或严格因果模型)的精确性不再重要,重要的是大多数数据群共同指出的结论(相关性关系);,大数据的数据够“快”,数据产生得快,数据增加得快,数
7、据随时间的折旧也快,数据的时效性成为关键。,大数据新思维,大数据新思维,大数据思维研究方法,各国大数据发展战略,各国大数据发展战略,我国大数据发展战略,大数据在公共领域的应用,互联网与大数据,互联网与大数据企业家的声音,基本框架:城市感知及数据捕获数据管理城市数据分析服务提供改进城市规划缓解交通堵塞保护自然环境节约能耗,城镇化、智慧城市与大数据城市计算(MSRA),1、区分识别城市的功能区域(如文教、商业和住宅区轨迹数据包含乘客上车和下车地点的信息。人的移动性数据可以很好地区分相同类别的兴趣点的热度,也可以揭示一个区域的功能,2、搜寻城市道路网中不合理的规划(拥堵)利用高速和环路等主干道将城市
8、分割成区域,然后分析大规模车流轨迹数据在不同区域之间行驶的一些特征,便可找到连通性较差的区域对,从而发掘现有城市道路网的不足之处,北京市3万多辆出租车3个月轨迹,城镇化、智慧城市与大数据城市计算(MSRA),3、细粒度空气质量预测 利用地面监测站有限的空气质量数据结合交通流道路结构、兴趣点分布、气象条件和人流规律等大数据,基于机器学习算法建立数据和空气质量的映射关系,从而推断空气质量,4、加油站排队时间及实时油耗估计 利用装有GPS的出租车在加油站的等待时间来估计加油站的排队长度,估算出此时加油站内的车辆数目及加油量。通过将全城的加油站数据汇总计算任意时刻消耗的燃油数,城镇化、智慧城市与大数据
9、城市计算(MSRA),金融与大数据,从数据角度看,金融无非是各种数据的排列组合,大数据时代,凡是拥有独特数据资产的公司,都可以涉及金融。,阿里,一是金融交易形式的电子化和数字化,具体表现为支付电子化、渠道网络化、信用数字化,是运营效率的提升二是金融交易结构的变化,其中一个重要表现便是交易中介脱媒化,服务中介功能弱化,是结构效率的提升,腾讯,百度,互联网金融:利用互联网技术、大数据思维进行的金融业务再造。利用新兴的大数据技术,金融业的两大根基征信与风控,将可能发生革命性的变化。(受限于政策因素),金融与大数据,目前,中国的大型商业银行和保险公司的数据量已经达到100TB以上级别,并且非结构化数据
10、量在迅速增长。,中国金融行业已步入大数据时代的初级阶段,并且呈现快速发展势头。优秀的大数据分析能力是当今金融市场创新的关键。,金融与大数据,国有金融机构依靠大数据技术和思维进行自我变革案例(中信银行信用卡中心),医疗与大数据,目前全球共拍摄了超过3.5万亿张照片每2分钟拍摄的照片数比19世纪拍摄的照片总数还多Facebook上累计有超过1400亿张照片发布,医疗图像的存储量占全球全部照片30!,大数据,卫生经济学与药品定价,疫情监测,公共健康监控,医疗统筹分析系统,医疗“大数据”(BigData),临床实验数据分析,医疗与大数据应用领域,网络通信与大数据,3大运营商加速推进大数据应用的具体举措
11、:,信息成为企业战略资产,基于大数据的商业智能应用将为运营商带来巨大的机遇,网络空间安全与大数据,大数据在处理网络空间安全问题上具有先天优势:,组建国家网络安全力量是网络安全大数据应用的重要目标,人机结合成为网络安全领域大数据分析工具的基本形态,真正可靠的安全保障必须与大数据时代发展同步,能源与大数据,能源行业数据特征,能源行业面临的大数据问题,能源行业企业对大数据产品和解决方案的需求集中体现在:可扩展存储、高带宽、可处理不同格式数据的分析方案。,能源勘探开发数据的类型众多,不同类型数据包含的信息各具特点,综合各种数据所包含的信息才能得出地下真实的地质状况。,汇 报 内 容,分布式文件系统、数
12、据库,计算系统,旅游,1、采集、预处理,2、存储管理,3、计算模式,4、分析挖掘,5、可视化,6、隐私和安全,大数据关键技术体系,传统方法缺陷,数据采集/预处理:来源单一,结构简单,不适用多源、异构的海量繁杂数据,数据存储管理:量小,采用关系型和并行数据仓库即可,数据计算模式:并非以数据为中心,以处理器为中心,导致数据移动开销,不适用大数据的需求,难以保证其可用性和扩展性,数据分析挖掘:缺乏多源异构、冲突及含噪处理机制,无法完成大数据价值的可靠置信挖掘,研究切合大数据特征的系列处理计算方法显得相当必要,大数据采集方法,大数据预处理方法,主要完成对已采集数据的抽取、清洗等操作,因采集数据具有多种
13、结构和类型,数据抽取可将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的,对于大数据,并不全是有价值的(无关数据、冲突或错误干扰项),需清洗“去噪”从而提取出有效数据。,为随后的数据管理和分析挖掘提供良好支撑!,处理海量数据时,如果不对数据进行预处理,单纯地依赖服务器的计算能力,是否能够满足大数据场景下对处理速度、处理精确性等要求呢?,大数据存储管理关键技术分布式文件系统,分布式文件存储系统需满足容错性和高吞吐量。代表技术为:Google的GFS和Hadoop的HDFS,HDFS是GFS的开源实现。,采用主从控制模式,即主节点存储元数据、接收应用请求并且根据请求类型进行应
14、答,从节点则负责存储数据。当用户访问数据时,与主节点交互的只有指令,并根据主节点返回的数据存储位置,直接与存储节点交互获得数据,避免主节点出现瓶颈。,GFS,数据规模和吞吐量的增长需求对传统的关系型数据库管理系统在并行处理,事务特性的保证,互联协议的实现,资源管理以及容错等各个方面带来了很多挑战,去除关系数据库的关系型特性,采用NoSQL(Not Only SQL)以及NewSQL数据库,简化了数据库结构,便于对数据和系统架构进行扩展。,通过放松对事务ACID语义的方法来增加系统的性能以及可扩展性(CAP定理),大数据存储管理关键技术分布式数据库,大数据计算模式关键技术MapReduce计算模
15、式,工作原理:先分后合。Map即“分解”,把海量数据分割成若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作以得到最终结果。,大数据分析关键技术,解决途径:突破传统分析挖掘算法的小数据局限性,将其进行规模、扩展、智能化处理。,局限性是什么?如何改进?,智能=机器学习?机器学习可以打天下?,大数据分析关键技术并行扩展化主要进展,传统机器学习,大数据机器学习,量变到质变,数据量越大,样本空间本身就将模型包含在内,就越不需要(淡化)建立模型,不能抛弃模型!数据总是不够,模型需要和数据结合,提供适当的泛化能力,大数据分析关键技术智能分析,大数据分析关键技术深
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据及信息安全技术中科大 熊焰课件 数据 信息 安全技术 中科大 熊焰 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-2118732.html