欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    大数据存储与处理平台研究.ppt

    • 资源ID:2973812       资源大小:10.90MB        全文页数:137页
    • 资源格式: PPT        下载积分:8金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要8金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据存储与处理平台研究.ppt

    大数据存储与处理平台研究,2,1.大数据存储(1)云存储系统MeePo(2)删冗处理2.大数据处理平台3.社交网络4.海量数据处理课程,3,关键问题及技术,大数据的获取、表示及传输大数据存储大数据处理大数据查询/分析,4,关键问题及技术,部分典型的大数据技术实现,5,1.大数据存储,6,大数据存储,要求高可用 数据能够随时访问,不丢失成本低 对磁盘容量要求低性能 访问速度要快低开销 对CPU,网络资源占用少优先级由于I/O的速度远低于CPU和网络,优先级应为高可用成本低性能低开销高可用和低成本是两个主要目标,7,大数据存储,如何在保证数据高可用性的同时,又最小化存储容量需求这个问题可以简单抽象为:给定F个文件,存储在P台机器上,每台机器有M块硬盘,每块硬盘的容量为C字节,如何存储这些文件,使得在2块硬盘或两台机器故障的情况下,系统仍然能够恢复出所有F个文件的内容,并使得所占用的存储容量最小,8,(1).清华云存储:MeePo,9,MeePo能做什么,个人空间:每个注册用户享有20GB的个人空间,可以离线使用社区空间:简单申请可以建立社区,拥有1TB的初始社区空间公共社区:系统自建的社区,向全部用户开放,包含课程视频、学习软件、影音资料等,实现文件数据的存储和共享,将网络资源与本地无缝集成根据不同的需求采取不同的缓存策略,增强用户体验,MeePo客户端,完全本地化的使用体验,MeePo客户端,个人空间:在线访问、同步、备份,社区空间:带权限控制的共享,公共空间:数据大集市,MeePo客户端,基于关系的共享,MeePo移动客户端,MeePo Website,下载客户端,查看、上传、下载,创建社区,加入社区,消息发布,15,MeePo:在线访问,在MeePo磁盘中播放视频,16,MeePo:在线访问,在MeePo磁盘中编辑文档,MeePo不只是存储!,18,从存储平台到资源平台,自主管理,使用方便,良性循环,19,实验室、班级建设,不只是存储平台!,使用方便,容量大,长期存储,20,课程教学,不只是存储平台!,使用方便,容量大,交互性强,21,学生社团,不只是存储平台!,使用方便,容量大,长期存储,22,清华跳水队,不只是存储平台!,训练视频,动作分析,参考资料,23,信息发布汇总,不只是存储平台!,讲座资料,活动资料,信息汇总,24,就业指导中心每天发布招聘信息发布各种文档表格公司介绍和宣讲就业指导学习材料,不只是存储平台!,查看方便,节约资源,易于管理,25,从存储平台到社交平台,人与人的联系共同的关注共同的爱好共同的背景共同的理想共同的性格,找到人与人之间的联系,加深人与人之间已有的联系,建立人与人之间更多的联系,找到有联系的人与人,26,从存储平台到社交平台,数据支撑的社交网络,27,从存储平台到支撑平台!,社团建设,班级管理,课程教学,娱乐分享,办公支撑,自主学习,实验室管理,资源汇总,学生,科研,学生,学生,学工,行政,教学,教学,一个完整的MeePo系统,29,MeePo系统架构,30,MeePo使用方式,客户端,网站,31,MeePo客户端,与资源管理器无缝集成,共享空间,个人空间,公共空间,32,MeePo用户网站,下载虚拟磁盘工具,查看社区空间数据,申请创建社区空间,申请加入社区空间,查看个人空间数据,33,MeePo管理后台,常用功能入口,统计信息,后台入口,34,MeePo监控后台,服务状态监控,存储容量监控,介质状态监控,网络流量监控,存储平台监控,MeePo与其他产品的比较,36,比较,RayFile,QQ网盘,DropBox,华为网盘,云应用,数据,网页磁盘,本地虚拟磁盘,点对点共享数据,开放式共享数据,特定群体共享存储,个人数据备份个人数据同步,云存储系统,同步工具,126网盘,云诺网盘,金山快盘,115网盘,37,比较,RayFile,QQ网盘,DropBox,华为网盘,126网盘,云诺网盘,金山快盘,115网盘,云应用,数据,网页磁盘,本地虚拟磁盘,点对点共享数据,开放式共享数据,特定群体共享存储,个人数据备份个人数据同步,云存储系统,同步工具,MeePo在行动:清华大学,20032 注册用户数511 注册社区数89.88 TB 数据总量300 TB 系统存储容量5-10 MB/s 数据传输速度6 TB 日均出口流量500 GB 日均入口流量2600+同时在线人数峰值1082 每秒请求数峰值,社区类型比例 清华大学,一份数据被共享了几次?,共享率 清华大学,出入流量比例:12:1,理论公式:,12倍的对外流量12份的内部存储12次的复制粘贴,41,(2).删冗处理,42,数据无处不在,但许多数据是重复的或者没有价值,未来的任务主要不是获取越来来越多的数据,而是数据的去冗分类、去粗取精,从数据中挖掘知识。数据量大到一定程度,数据压缩就必不可少。去重、压缩和归档技术是大数据处理技术中不可或缺的组成部分。“大数据”有简单和复杂之分。个体间联系很少,只是个体数量庞大的“大数据”问题并不难解决;组合爆炸的困难产生于个体之间的联系,社会网络的复杂性来源于社会联系。“小世界”也会产生“大数据”。几百年来,科学研究一直在做“从薄到厚”的事情,把“小数据”变成“大数据”,现在要做的事情是“从厚到薄”,要把大数据变成小数据。,变“大数据”为“小数据”,43,H,I,J,Backup LogicalEstimated Physical DataReduction,周一的增量备份300 GB100 GB 实际710 x,周二的增量备份300 GB100 GB 实际710 x,K,L,周三的增量备份300 GB100 GB 实际710 x,周四的增量备份300 GB100 GB 实际710 x,第二个周五的全备份 800 GB100 GB 实际5060 x,TOTAL 2800 GB1200 GB,周五的全备份 800GB700 GB 实际24x,高效主存储删冗系统构建方法,什么是删冗(Data Deduplication):一种数据精减方法(Data Reduction),将重复数据以指针代替,44,云存储领域:多个用户共享同一存储,重复数据出现的概率极大提高。高性能计算领域:每轮计算产生的数据量极大,且有很大相似性。网络社区,网络游戏等Internet服务领域,数据重复出现的概率极大网络邮件系统:相同的邮件数量非常大,比如垃圾邮件和频繁转发的邮件等。数据库应用领域:许多用户数据和用户信息均可能有相似之处。,可能的应用场景,45,学术界近年的情况:FAST 2011 Dedup Session存储界近年的收购集中在删冗领域:2009,EMC 收购Data Domain,21亿$2010,Dell 收购Ocarina,传言1.5亿$2010,IBM 收购Storwize,传言1.4亿$潜在的收购:Netapp/EMC/Oracle 收购Permabit?,存储删冗成为研究热点,46,主存储 目标:高性能,面向在线动态增长的数据延缓主存储开销减少主存储空间消耗提高主存储性能,Data,备份存储目标:数据保护减少备份媒体的开销减小备份窗口减小恢复时间,目标:删冗主存储,具有高性能,扩展性,可靠性,Data,Data,$,$,$,$,$,两种删冗方案:备份存储删冗和主存储器删冗,47,主存储删冗系统好处延缓主存储增长的速度节省存储空间,降低存储成本提高主存储系统性能减少备份数据量,增强通过网络异地备份数据的能力主存储删冗难点:主存储性能要求高写数据时删冗过程计算开销大数据划分造成元数据量激增,元数据访问成为瓶颈。,高效主存储删冗系统构建方法,48,高效主存储删冗系统构建方法,主要的创新:提出了基于相似数据段元数据索引组织方法。使用位置敏感哈希函数快速匹配相似数据段。以重复数据判断率的少许下降换取性能提升,49,基于LSH的相似文件快速识别相似文件映射到同一哈希桶概率高基于p-stable位置敏感哈希函数读操作处理流程查询文件ID、块号、数据段号读取对应数据段元数据集合根据数据块元数据记录存储地址读取数据块内容到缓存区返回缓存区数据给应用写操作处理流程,工作原理,50,提出了基于位置敏感哈希的元数据快速匹配和索引构建方法可用于创建通用设备,在通用情况下提高了元数据查询和更新性能对于不同元数据存储介质(HDD或者SSD)都有效可调参数适应不同类型文件存储可控制系统缓存开销扩展性非常好,适用于创建集群化的分级删冗存储设备,也非常适用于创建云存储设备应用于发改委人大附中基础教育试点项目中,卖给同有公司200万样机已发表文章2篇,申请专利1项,高效主存储删冗系统构建方法,51,主存储删冗系统PDFS,关键问题:数据如何有效组织传统思路:在一个大集合中找一个数据,如何能尽快确定地找到PDFS思路:在一个大集合中找一个数据,是否能仅在其某个子集合中查找,找到则进行数据精简,否则立即放弃。通过以数据压缩率的些许降低,获得了与普通主存储设备几乎一样的读写性能,52,现有大数据存储技术,分布式文件系统分布式RAID冗余删除系统,53,分布式文件系统,GFS,HDFS,MooseFS等使用多副本技术提高数据的可用性和性能当一个副本失效,系统自动进行数据的重分布,尽快恢复成3个副本多副本不仅带来可用性上的好处,也带来了性能上的好处缺点:需要3X的存储容量,存储效率低,成本高,54,分布式RAID,Garth Gibson等提出,并在Hadoop中实现了原型将RAID的思想扩展到网络连接的服务器上,分布式RAID6的效果是在典型负载下,以1.3X左右的容量获得容2个错的能力提出异步编码,即对新加入的文件,不马上进行RAID编码,而是先进行多副本拷贝,缺点:对常见的单点故障,数据恢复开销大,55,现有的存储冗余删除技术,在文件系统中存在广泛的冗余多用户存储的相同文件,同一文件的不同版本,同一类文件的相近的文件头等等冗余删除技术寻找文件内、文件之间的冗余数据块对同一块数据,只保存一份新加入的文件,分块后通过hash函数查找是否已保存有相同内容的数据块变长的数据块比定长数据块能够删除更多的冗余数据根据使用场景不同,分为用于备份的删冗存储系统,如Venti,DataDomain等用于主存储系统的删冗系统,可以在典型负载下,降低存储需求30-40%,缺点:未考虑数据的可靠性,多个文件依赖同一数据块,如果该数据块损坏,多个文件都损坏,56,大数据的高效可靠存储解决方法,分布式RAID,冗余删除,分布式RAID和冗余删除的简单组合不能解决问题,两个技术在很多设计决策方面有冲突在块大小的选取块长是否可变编码时机编码范围数据块的摆放,系统化地将数据可用性和冗余删除技术统一考虑容2个错容量需求仅为0.9X,高可用性+冗余删除,57,2.大数据处理平台,58,关系数据库曾经是万能的,关系数据模型,医院信息管理系统(HIS),临床信息系统(CIS),医学影像信息系统(PACS),ICU监护系统,电子病历,远程健康监护平台,用药管理系统,虚拟医院,59,关系数据模型的优点,具有强大的知识表达能力能够方便地为各种对象以及对象之间的联系设计逻辑模型关系代数理论十分完备,并且易于实现支持结构化查询语言,让用户无需了解数据库的实现,60,传统关系数据库的特点,重视关系数据模型功能的完整实现原子性、一致性、分离性和持久性(ACID)优化并发访问性能不重视设计容错的并行化执行引擎对“一次写多次读”的数据进行存储结构优化数据规模增大导致查询执行性能差的问题,61,大数据时代关系数据库的困境,实现关系数据模型理论的全部内容,同时对所有查询做到高效执行,几乎是不可能的同样的查询,多种执行方式,如何优化执行?数据与查询在变化,不存在普适的物理存储结构和查询优化方法数据规模增大,原来高效的算法会变得低效实现事务处理要求的原子性、一致性、分离性和持久性(ACID)的开销巨大,62,能够并行化不意味着高可扩展性,复杂分析查询,结果,1000小时,复杂分析查询,结果,复杂分析查询,结果,1小时?,1个节点,100小时,10个节点,10小时?,100个节点,复杂分析查询,结果,1000个节点,节点失效、网络中断将成为常态!,执行过程中出错,传统的并行数据库将重新执行整条查询!,可能永远也无法完成查询,63,大数据存储管理系统分类,结构化存储(如关系型数据库与数据仓库):优点:数据结构良好、功能完备、速度快缺点:灵活性差、不易扩展、预处理开销大日志式存储(如Hadoop Hive):优点:无需预处理、灵活性强、易于扩展缺点:功能较弱,需用户介入以提供高级查询功能半结构化存储(如BigTable、Key/Value存储):优点:速度快,易于扩展,预处理开销适中缺点:功能相对较弱,介于前两者之间,64,例一用电信息的大数据处理,65,用电信息的典型业务应用场景,业务应用场景低压数据完整率统计终端通讯流量统计低压日电量计算用户负荷数据查询测试的目的比较传统Oracle数据库以及新型的大数据处理方法的性能,66,用电信息的大数据处理特征,计算业务数据量规模十分庞大,并且随着数据获取精度的提高,数据规模增长非常迅速计算任务会涉及到不同的计算场景,即构造不同的应用来获取不同的数据进行计算计算任务会从多个数据源获得数据,并进行联合分析,做数据的交叉,67,新的并行计算设计范式:MapReduce,68,MapReduce+GFS与并行数据库的比较,水平扩展,并行数据库查询速度快(100节点以内)缺点:可扩展性差容错性差价格昂贵,MapReduce+GFS高可扩展开源免费缺点:进行复杂查询时,需要专门编写代码,垂直扩展,网络存储结构,数据处理模式,69,测试环境,本次测试环境由6台机器构成,采用Hadoop架构,其中1台作为Master,另外5台作为Salve或RegionServer,测试通过在Master节点上执行Shell/HQL脚本以及即时查询来完成。计算节点CPU:Xeon E7 4807 1.87G 4核8线程 共计2颗操作系统:CentOS网卡:1000M网卡内存:32G Oracle测试节点配置情况两台小型机上HP安腾小型机,16路,64G内存,硬件造价在300万左右,通过Oracle RAC的方式承担数据存储和数据计算的任务,70,测试数据记录数目,某省3个月用电数据任务表:456958条低压低压测量点表:6100615条低压表记表:3400231条低压用户表:5716317条低压数据主表:3653409条低压电量数据表:464562614条终端资产表:890620条,71,4类场景测试结果对比,测试中所使用的4个场景,性能平均提升9.8倍,例二社保系统审计大数据处理,73,审计署全国社会保障数据采集情况,为了开展针对我国社会保障的摸底性审计工作,审计署于2012年开展了全国社会保障资金审计。对全国各省、市、县,13种资金类别的历年社会保障数据开展了数据采集工作。数据细化到每个参保人、每个参保企业各月的缴费及支付信息。最终获得近100T的社会保障数据。,74,由于我国社会保障信息化建设呈现非常显著的“碎片化”特点,即不同地区、不同资金甚至不同年度,所采用的信息系统均不相同。导致本次国家审计的数据采集工作涉及到几百种异构信息系统,多数信息系统包含上百张表、上千数据项。涉及Oracle、DB2、SQLServer、Sybase、MySQL、Access、FoxPro等几乎全部主流DBMS系统,也不乏Excel、Txt等利用文件管理的情况,部分地区甚至仍处于手工纸质管理阶段。,社会保障数据的“碎片化”现状,75,划分方式,数据存储方式,险种的差异,统筹地域与行政区划的异同,社保的业务流程,集中存储分散存储混合,征缴管理发放,社会保障数据的“碎片化”现状,社保信息系统的碎片化可按照险种、存储方式等划分的几类实际情况,其他因素包括信息化推进程度、地域执行、行业、时间等。,基本养老基本医疗工伤等低保等,统筹层次与区划相同统筹层次高于区划统筹层次低于区划混合,76,地市区划或行业划分,业务流程,险种,森工行业企业职工基本养老保险发放数据,A市职工基本医疗保险征缴数据,数据采集示例-数据集中情况,此图示中所代表的不同划分方式下的社保数据碎片化程度,社会保障数据的“碎片化”现状,某省社保数据按照险种、行业和业务经办的不同,造成的割裂情况。,77,部分地区数据库类型及信息管理方式的差异。,社会保障数据的“碎片化”现状,78,政策分析模型,绩效监测模型,分析型监测模型,合法性合规性监测模型,基础数据统计,业务审计、财务审计、复核审计,供养比、替代率、基尼系数,可持续性、政策一致性等,社会保障审计监测模型体系架构,审计署全国社会保障数据分析特点,2023/3/6,79,例三某省移动大数据处理,某省移动大数据处理任务需求描述,移动的每次业务(通话,上网,发短信)都会产生一个类似日志一样的记录,这个记录跟地理位置相关,记录了业务的详细信息。移动公司希望通过这些业务记录数据的挖掘,对服务质量,进而对基站设置、布局等提出评估和指导。计算任务主要两部分:(1)对业务的地理位置进行定位。日志收上来之后,没有了地理位置信息,要逐条记录进行恢复,这部分计算量很大,且要求接近实时的方式完成。(2)对定位好的日志信息,进行统计,如一段时间一个地理范围内,短信的丢失率,掉话率等。统计的指标没有特别确定的条件,随时可能更改,这部分也要对用户在界面上的操作尽心快速响应。,例三某省移动大数据处理,局部地县的数据【现状】配置:数据库服务器硬件配置:HPDL380G72个IntelXeon处理器E5645(六核2.40GHz,12MB三级缓存),16G内存。操作系统:Windows Server 2003 R2 64 企业版。数据库:Oracle10.2g 64位,单实例数据:1000载频的采集规模,10分钟的MR文件大小为1G,MR数据条数为300万条,可以在10分钟以内完成定位计算;,例三某省移动大数据处理,省级数据超过6万载频的采集规模,10分钟的MR文件大小60G,MR数据条数18000万条;目前无法满足10分钟完成所有MR的定位。,83,select cell_id as 小区号,totalmr as MR采样数(个),round(totalmr*0.48/3600,3)as 话务总量(Erl),round(sum(totalmr)*100.0/totalnum,3)as MR采样数占比(%)from(select cell_id,nvl(sum(mr_num),0)totalmr from mr_lose_cross where bsc in(6)and date_time=to_date(2012-03-26 14:00:00,yyyy-mm-dd hh24:mi:ss)and date_time=to_date(2012-03-26 14:00:00,yyyy-mm-dd hh24:mi:ss)and date_time 0 group by cell_id,totalmr,totalnum order by totalmr desc,指标统计时所使用的组合查询的例子:涉及到2个表的组合查询:,84,3.社交网络,85,社交网络数据-Volume,新浪1000万人每人(最多)1000条微博 5TB3亿用户 100TB还没包括评论和图片用户Profile100GB量级用户关系数亿用户,几百亿条边,100GB量级数十亿用户,几个TB量级,86,社交网络数据-Velocity,每天新浪发出上亿条微博512*108 Byte=50GB关注关系的演化结点的增加按半年增加8000万用户估算,每天平均新增40万关注关系的增加与取消,87,社交网络数据-Variety,微博 自然语言Profile/Tags用户关注关系 图非结构化数据微博的转发与评论关系-图,88,社会化网络分析举例,网络的统计分析理解网络的特点,比如幂律分布,网络直径,6度联系,小世界模型等社区发现如果要做广告,给1000个人付费转发,应该请哪1000个人合适结点标记已知部分用户的特征,如何根据网络结构传播这些特征影响力分析一个用户在哪方面具有影响力,89,深度社会化网络分析,基于内容的分析对微博内容的分析情感分析(例如股票预测)动态网络分析引入动态信息可增加结果的准确度,例如最近添加的边比过去的边对未来的边的预测更有意义例如预测移动和联通电话的用户的流失实时分析与反馈从了解社会的行为到改善社会的互动,90,深入微博分析的例子:影响力测试*,A,B,C,t,t-1,A,B,C,t-1,t-1,?,?,问题:社会网络中是否存在影响力?那种影响力的显著的?,方法:比较具有两种关系三角形,但他们具有不同的时间戳.,1,2,假设:如果 P1(B-C)远大于 P2(B-C),那么影响力是存在的,*来自清华大学唐杰,91,社会化网络分析对系统软件的挑战,图算法的数据局部性较差,使得数据访问开销很大一次L2/3 Cache Miss要约200个时钟周期,远程访问要1000个以上的时钟周期对内存和外存都存在这个问题数据量较大,有时单机内存难以存放,I/O量大分布式系统多机聚合内存多个磁盘同时读写并行计算但图划分后由于网络的Power law使得平衡的划分下通信量巨大,92,社会化网络分析对系统软件的挑战,对增量数据的支持困难保存多份快照,浪费空间,图的结构特点使得传统删冗方法不一定适用采用Log的方法对构造某一时刻的快照时间复杂度太高基于内容的分析,实时分析与反馈微博内容量巨大,现有深入的NLP技术还不能使用,仅使用简单的关键词方法分析算法对大图速度慢、成本高,结点大时计算量巨大,93,大计算量举例 Betweenness Centrality,All pair shortest path(全点对最短路径)复杂度 O(E*V)串行算法,6467个点,26467条边的图,需要10秒数亿结点,百亿条边需要多少时间?,94,社会化网络分析的发展,算法,系统,目标,95,解决挑战的思路,三个计算机系统有关领域的结合编程抽象易于程序员表达易于运行时系统优化数据存储的格式提高访问的局部性支持增量数据运行时系统访存优化(如,预取)通信优化(如,批处理),96,示例一 图划分和通信优化,GRACE.USENIX ATC 2012把图划分为若干子图,子图内边较多,子图之间边较少,提高局部性通信进行批处理,先结点内通信,后结点间通信PowerGraph.OSDI 2012GAS(Gatther,Apply,Scatter),拆分高度数结点,97,98,示例二 稀疏矩阵方法,利用稀疏矩阵方法Yang et.al,VLDB 2011稀疏矩阵广泛应用于有限元方法、天气预报、EDA等科学与工程计算领域社交网络可以表示为稀疏矩阵,很多重要的社交网络分析算法如PageRank,HITS都可以表达为稀疏矩阵运算原有稀疏矩阵表示方法CSR(Compressed Sparse Row)等不适合于按幂律分布的社会网络稀疏矩阵,99,CSR(Compressed Sparse Row),100,101,102,示例三 笔记本上的图分析引擎,社会网络数据大,但也不是那么大新浪微博4亿用户,关系图在内存100GB可以保存微博数据,1000万人的大约5TBOSDI 12 GraphChi通过优化对外存的访问使小内存的计算机单机系统也能进行有效的社会化网络分析数据放在硬盘上,通过排序和分片,把内存作为滑动窗口,并让对外存数据的访问都是顺序访问,而且降低读写次数,103,示例四 对时序数据分析的存储和编程支持,硬件系统使用SSD外存,内存不足以存下所需分析的图,图保存在SSD上输入系统初始快照和Log分析所需生成多个快照的规则输出在SSD上高效保存的多个快照,支持局部性优化访问SSD上多个快照的API支持预取和缓存机制的,104,SSD上的多快照数据布局,图在SSD上的保存形式边的数组多份图快照大量数据冗余 基准+增量 D1:当n很大时,vertex的局部性会很差,要获得SSn代价很大快照组 n可根据情况调整,105,访问图的API,GraphTraverse,for(partition-IterateVertices(sid,vh);vh.HasNext();vh.Next()uint32_t counter=0;for(vh.IterateEdgesSnapshot(eh);eh.HasNext();eh.Next()eh.GetTarget(tvh);volatile uint32_t vi=tvh.index();counter+;,106,预取和替换,预取的必要性内存不够放下全图,需要从SSD上读取API给出了一定的暗示,但不足够手工预取API定义高层的抽象,实现更有效的预取编译分析,for(partition-IterateVertices(sid,vh);vh.HasNext();vh.Next()uint32_t counter=0;for(vh.IterateEdgesSnapshot(eh);eh.HasNext();eh.Next()eh.GetTarget(tvh);volatile uint32_t vi=tvh.index();counter+;,107,持续更新图的挑战,在接受图的动态更新的情况下,仍能保持局部性优化的存储,并可提供任意时刻的快照,输入流,优化局部性图存储系统,任意时刻快照,社会网络分析应用,108,总结,社交网络分析是典型的大数据分析问题,需要处理数据的Volume,Velocity 和Variety社会网络分析的主要方法是图算法,局部性、大数据量和大计算量对计算机系统提出了挑战计算机系统研究者将通过编程抽象、数据存储和运行时系统三个方面的结合来面对这些挑战,109,正在做什么事?,面对大数据处理,现有系统架构的不足片面强调计算与存储效能,割裂了全量数据、流式数据和离线数据Life Cycle通过弱一致性约束提高并发度,忽略了大数据异质性带来的访问局部性差问题,研究内容与思路,研究现状与问题,研究内容:全周期感知的网络大数据计算系统架构体系,110,1、感知、存储与计算融合的分布式系统架构,2、低延迟高可靠的流式大数据计算框架与方法,3、弱数据访问局部性的批量大数据处理方法,包括:富语义编程模型;数据和计算双向流动理论;感知、存储与计算融合大数据分布策略与约简策略,包括:系统节点弹性替代机制;细粒度的数据依赖性;资源调度与轻量的失效转移算法等,包括:穿透数据访问时空局部性的大数据访问关联规则,研究贯穿整个存储器栈的数据调度算法等,研究内容与思路,研究现状与问题,研究内容:全周期感知的网络大数据计算系统架构体系,针对网络大数据感知、存储、计算全生命周期,设计自适应感知、弹性存储、离线简约计算和在线增量计算融合的体系架构,并提出针对性的新型效能模型和优化方法,实现网络大数据简约感知、弹性存储与实时高效计算,111,示范应用一:网络违法犯罪线索发现与行为预警,可达系统处理能力:每天流式数据100亿条每天数据增量30TB数据感知、存储与关联线索融合分析:PB级,分布式网络大数据处理平台,分析全量数据发现犯罪行为,基于公安部的实际需求,在分布式全量数据资源平台上,对互联网运营商/服务商的服务端全量日志数据和社区、论坛与微博的全量社会媒体数据进行实时感知,融合离线数据与在线数据分析,发现犯罪行为线索,112,示范应用二:社会发展指数的现状感知与态势预测,数据特点新华通讯社拥有的遍布全球的实时新闻媒体数据新华舆情拥有的覆盖全国的社会舆情数据新华08拥有的国内最大规模的非结构化+结构化金融服务数据阿里云所支持的国内最大规模的网络在线商品交易数据,数据类型新闻媒体数据舆情数据金融数据在线交易数据,依托新华社和阿里云的重要应用背景,利用网络大数据资源,建立分布式网络大数据分析平台,实现对健康、教育、物价、环境污染等各项社会发展相关指数的现状感知与态势预测,113,114,4.海量数据处理课程,115,清华大学计算机系在本科生大三结束之后的暑假,为了提高学生的实践能力,特别设置专业实践暑期课程。专业实践提供了学生设计和实现比较大的系统的机会,实践老师将进行实际训练的指导,使得学生能够尽快入门。专业实践需要应用到比较复杂的软件与硬件技术,用以解决特定的问题,而不是单项知识点的教学。,暑期课程概述,116,2007年开始开设课程,部分教材和资料由谷歌google提供,是全球第二个开展相关课程的学校相关资料可在网上查询获得http:/编程语言,基于集群的大规模数据处理,117,对分布式系统中的一些基本概念进行介绍,讨论在进行分布式系统设计中会涉及到的实际问题。针对真正的分布式系统的例子,例如google的分布式系统展开详细地讨论,使得学生能够获得初步的分布式系统的设计概念。另外,在课程设计中,会有很强的实践环节,学生将会通过对真正的分布式系统进行编程获得实践经验。,教学目标,118,课程的组织,5 次讲课的内容课程相关论文的阅读论文讨论,提交作业3 个课程相关的实验最后的大项目(Final Project)提交计划中期报告,项目结题报告项目最后检查汇报,119,学生需要提交的内容,作业(论文读后感,思考题等)(占总成绩20%)3个实验报告(占总成绩30%)大项目相关(占总成绩50%)大项目的建议书大项目结题报告大项目展示口头报告,120,课程内容与实验,121,Hadoop简介HDFS,MapReduceNameNode,DataNode,JobTracker,TaskTracker,基本的HDFS文件系统的操作Ls,copyFromLocal,运行例子程序分析例子程序源代码MapReduce WordCount in Java源程序的编写,编译与执行学生手动运行例子程序LineIndexer,Lab 0:Hadoop 环境的配置,122,倒排表是搜索引擎的基础,在做实验之前对搜索引擎做必要介绍Step 1:噪音词的识别Step2:在Shakespeare Corpus(5.4M)数据集上计算并且获得倒排表Step3:建议的扩展实验数据清理在倒排索引上完成查询程序完整的倒排索引其它的相关实验,Lab 1:简单的倒排表实验,123,Wikipedia的数据是直接从网上下载的英文原文的wikipedia的数据总的数据容量为10G各个网页之间有链接互相联系,分析链接可计算PageRank学生需要完成下面三个步骤:graphBuilder:从下载的数据中建立有向图pageRankIterator:通过MapReduce迭代进行PageRank的计算,获得每一个页面的PageRank值pageRankViewer:显示最终结果,Lab 2:在Wikipedia数据集上完成PageRank,124,数据集容量为2G,是Netflix网站上所提供的数据,为电影的标识以及用户对电影的评价。实验的目标是使用聚类算法,通过给定的记录数据,找出400个左右的相关电影的集合。聚类算法为K-Means算法加上Canopy Clustering算法,Lab3:在Netflix数据上的K-means与Canopy算法的设计与实现,125,学生可以自由选择所需要完成的大项目,并且可以按照23个人作为一个小组,锻炼团队能力、项目必须体现出是分布式系统相关的项目建议基于hadoop的集群进行构建项目的工作强度为全时2.53 周时间大项目类别的举例:垂直搜索引擎,N单元的模拟,机器学习,最后的大项目,126,小型的20个节点的集群,每个节点双路四核cpu,150GSATA硬盘两个,4GB内存,通过1G以太网络进行连接在大约15个学生之间进行共享使用最新版本的Hadoop进行实验和编程环境配置,实验环境的设置,127,学生自由选择项目的课题,必须与分布式系统相关,建议使用hadoop集群系统完成运算学生的选题主要集中在以下三个方面垂直搜索引擎N-Body系统的模拟,离散事件模拟机器学习,学生的大项目作业情况概述,128,专注于某一个专门类别的搜索,独立构建一个小型的搜索引擎Notebook Huntress:专门用于搜索笔记本的搜索引擎ComgIT:专门用于消费类电子产品的搜索引擎SMine水木精华区搜索:专门用于论坛的搜索IMAGE SPY 图片搜索引擎:从互联网上下载图片数据以及相关文本,构建图片搜索引擎,大项目垂直搜索引擎类,129,构建用于消费类电子产品的垂直搜索引擎,通过论坛信息的搜集和检索,为用户购买消费类电子产品提供帮助,大项目展示-ComgIT,130,大项目展示Notebook Huntress构建笔记本搜索引擎,131,通过MapReduce针对N-Body系统进行模拟,以及对离散事件进行模拟,模拟现有的一些物理现象,进行统计特性分析等物理现象模拟(天体物理,布朗运动等)学校生活系统的模拟与统计学校商业的模拟,大项目N-Body系统的模拟,离散事件模拟类,132,模拟了小球的碰撞,大气物理,布朗运动,星球运动等物理现象,大项目展示物理现象的模拟,133,模拟学生在校园里的活动,从而可以模拟和跟踪传染病在校园内的传播情况,大项目展示-Epidemic!,134,模拟学校的生活,模拟在清华学生宿舍一座小桥边卖煎饼的情况,每天的各种原料的进口以及煎饼的贩卖情况,大项目展示小桥煎饼摊模拟,135,通过分布式计算,扩展机器学习所能够处理数据的量音乐聚类与检索系统Netflix数据的LSI分解方法文本信息分类的方法,大项目机器学习类,136,We deeply appreciate Google and the group of HPC for providing such a great opportunity to learn Mass Data Computing techniques.Many thanks to the instructor Kang Chen and the TA Yubing Yin,for their warm-hearted guide and help.We have experienced a good class these days.The projects are all good,but the time seems to be a little short to finish all the work.Many thanks to our teacher Mr.Chen and TA Yubing.This five weeks is a nice experience for me and Ive never taken a course in all the 3 years that makes me so enthusiastic for it.,学生报告中的反馈,137,学生的实验情况:网络应用程序构建,物理系统的模拟,机器学习算法的并行化。“学习到很多平时课堂上学不到的知识”同学的课后总结。Google公司参与最后的评定,很多大实验项目被认为具有研究生的水平。,教学效果与评价,

    注意事项

    本文(大数据存储与处理平台研究.ppt)为本站会员(laozhun)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开