大数据存储与处理平台研究.ppt
《大数据存储与处理平台研究.ppt》由会员分享,可在线阅读,更多相关《大数据存储与处理平台研究.ppt(137页珍藏版)》请在三一办公上搜索。
1、大数据存储与处理平台研究,2,1.大数据存储(1)云存储系统MeePo(2)删冗处理2.大数据处理平台3.社交网络4.海量数据处理课程,3,关键问题及技术,大数据的获取、表示及传输大数据存储大数据处理大数据查询/分析,4,关键问题及技术,部分典型的大数据技术实现,5,1.大数据存储,6,大数据存储,要求高可用 数据能够随时访问,不丢失成本低 对磁盘容量要求低性能 访问速度要快低开销 对CPU,网络资源占用少优先级由于I/O的速度远低于CPU和网络,优先级应为高可用成本低性能低开销高可用和低成本是两个主要目标,7,大数据存储,如何在保证数据高可用性的同时,又最小化存储容量需求这个问题可以简单抽象
2、为:给定F个文件,存储在P台机器上,每台机器有M块硬盘,每块硬盘的容量为C字节,如何存储这些文件,使得在2块硬盘或两台机器故障的情况下,系统仍然能够恢复出所有F个文件的内容,并使得所占用的存储容量最小,8,(1).清华云存储:MeePo,9,MeePo能做什么,个人空间:每个注册用户享有20GB的个人空间,可以离线使用社区空间:简单申请可以建立社区,拥有1TB的初始社区空间公共社区:系统自建的社区,向全部用户开放,包含课程视频、学习软件、影音资料等,实现文件数据的存储和共享,将网络资源与本地无缝集成根据不同的需求采取不同的缓存策略,增强用户体验,MeePo客户端,完全本地化的使用体验,MeeP
3、o客户端,个人空间:在线访问、同步、备份,社区空间:带权限控制的共享,公共空间:数据大集市,MeePo客户端,基于关系的共享,MeePo移动客户端,MeePo Website,下载客户端,查看、上传、下载,创建社区,加入社区,消息发布,15,MeePo:在线访问,在MeePo磁盘中播放视频,16,MeePo:在线访问,在MeePo磁盘中编辑文档,MeePo不只是存储!,18,从存储平台到资源平台,自主管理,使用方便,良性循环,19,实验室、班级建设,不只是存储平台!,使用方便,容量大,长期存储,20,课程教学,不只是存储平台!,使用方便,容量大,交互性强,21,学生社团,不只是存储平台!,使用
4、方便,容量大,长期存储,22,清华跳水队,不只是存储平台!,训练视频,动作分析,参考资料,23,信息发布汇总,不只是存储平台!,讲座资料,活动资料,信息汇总,24,就业指导中心每天发布招聘信息发布各种文档表格公司介绍和宣讲就业指导学习材料,不只是存储平台!,查看方便,节约资源,易于管理,25,从存储平台到社交平台,人与人的联系共同的关注共同的爱好共同的背景共同的理想共同的性格,找到人与人之间的联系,加深人与人之间已有的联系,建立人与人之间更多的联系,找到有联系的人与人,26,从存储平台到社交平台,数据支撑的社交网络,27,从存储平台到支撑平台!,社团建设,班级管理,课程教学,娱乐分享,办公支撑
5、,自主学习,实验室管理,资源汇总,学生,科研,学生,学生,学工,行政,教学,教学,一个完整的MeePo系统,29,MeePo系统架构,30,MeePo使用方式,客户端,网站,31,MeePo客户端,与资源管理器无缝集成,共享空间,个人空间,公共空间,32,MeePo用户网站,下载虚拟磁盘工具,查看社区空间数据,申请创建社区空间,申请加入社区空间,查看个人空间数据,33,MeePo管理后台,常用功能入口,统计信息,后台入口,34,MeePo监控后台,服务状态监控,存储容量监控,介质状态监控,网络流量监控,存储平台监控,MeePo与其他产品的比较,36,比较,RayFile,QQ网盘,DropBo
6、x,华为网盘,云应用,数据,网页磁盘,本地虚拟磁盘,点对点共享数据,开放式共享数据,特定群体共享存储,个人数据备份个人数据同步,云存储系统,同步工具,126网盘,云诺网盘,金山快盘,115网盘,37,比较,RayFile,QQ网盘,DropBox,华为网盘,126网盘,云诺网盘,金山快盘,115网盘,云应用,数据,网页磁盘,本地虚拟磁盘,点对点共享数据,开放式共享数据,特定群体共享存储,个人数据备份个人数据同步,云存储系统,同步工具,MeePo在行动:清华大学,20032 注册用户数511 注册社区数89.88 TB 数据总量300 TB 系统存储容量5-10 MB/s 数据传输速度6 TB
7、日均出口流量500 GB 日均入口流量2600+同时在线人数峰值1082 每秒请求数峰值,社区类型比例 清华大学,一份数据被共享了几次?,共享率 清华大学,出入流量比例:12:1,理论公式:,12倍的对外流量12份的内部存储12次的复制粘贴,41,(2).删冗处理,42,数据无处不在,但许多数据是重复的或者没有价值,未来的任务主要不是获取越来来越多的数据,而是数据的去冗分类、去粗取精,从数据中挖掘知识。数据量大到一定程度,数据压缩就必不可少。去重、压缩和归档技术是大数据处理技术中不可或缺的组成部分。“大数据”有简单和复杂之分。个体间联系很少,只是个体数量庞大的“大数据”问题并不难解决;组合爆炸
8、的困难产生于个体之间的联系,社会网络的复杂性来源于社会联系。“小世界”也会产生“大数据”。几百年来,科学研究一直在做“从薄到厚”的事情,把“小数据”变成“大数据”,现在要做的事情是“从厚到薄”,要把大数据变成小数据。,变“大数据”为“小数据”,43,H,I,J,Backup LogicalEstimated Physical DataReduction,周一的增量备份300 GB100 GB 实际710 x,周二的增量备份300 GB100 GB 实际710 x,K,L,周三的增量备份300 GB100 GB 实际710 x,周四的增量备份300 GB100 GB 实际710 x,第二个周五的
9、全备份 800 GB100 GB 实际5060 x,TOTAL 2800 GB1200 GB,周五的全备份 800GB700 GB 实际24x,高效主存储删冗系统构建方法,什么是删冗(Data Deduplication):一种数据精减方法(Data Reduction),将重复数据以指针代替,44,云存储领域:多个用户共享同一存储,重复数据出现的概率极大提高。高性能计算领域:每轮计算产生的数据量极大,且有很大相似性。网络社区,网络游戏等Internet服务领域,数据重复出现的概率极大网络邮件系统:相同的邮件数量非常大,比如垃圾邮件和频繁转发的邮件等。数据库应用领域:许多用户数据和用户信息均可
10、能有相似之处。,可能的应用场景,45,学术界近年的情况:FAST 2011 Dedup Session存储界近年的收购集中在删冗领域:2009,EMC 收购Data Domain,21亿$2010,Dell 收购Ocarina,传言1.5亿$2010,IBM 收购Storwize,传言1.4亿$潜在的收购:Netapp/EMC/Oracle 收购Permabit?,存储删冗成为研究热点,46,主存储 目标:高性能,面向在线动态增长的数据延缓主存储开销减少主存储空间消耗提高主存储性能,Data,备份存储目标:数据保护减少备份媒体的开销减小备份窗口减小恢复时间,目标:删冗主存储,具有高性能,扩展性
11、,可靠性,Data,Data,$,$,$,$,$,两种删冗方案:备份存储删冗和主存储器删冗,47,主存储删冗系统好处延缓主存储增长的速度节省存储空间,降低存储成本提高主存储系统性能减少备份数据量,增强通过网络异地备份数据的能力主存储删冗难点:主存储性能要求高写数据时删冗过程计算开销大数据划分造成元数据量激增,元数据访问成为瓶颈。,高效主存储删冗系统构建方法,48,高效主存储删冗系统构建方法,主要的创新:提出了基于相似数据段元数据索引组织方法。使用位置敏感哈希函数快速匹配相似数据段。以重复数据判断率的少许下降换取性能提升,49,基于LSH的相似文件快速识别相似文件映射到同一哈希桶概率高基于p-s
12、table位置敏感哈希函数读操作处理流程查询文件ID、块号、数据段号读取对应数据段元数据集合根据数据块元数据记录存储地址读取数据块内容到缓存区返回缓存区数据给应用写操作处理流程,工作原理,50,提出了基于位置敏感哈希的元数据快速匹配和索引构建方法可用于创建通用设备,在通用情况下提高了元数据查询和更新性能对于不同元数据存储介质(HDD或者SSD)都有效可调参数适应不同类型文件存储可控制系统缓存开销扩展性非常好,适用于创建集群化的分级删冗存储设备,也非常适用于创建云存储设备应用于发改委人大附中基础教育试点项目中,卖给同有公司200万样机已发表文章2篇,申请专利1项,高效主存储删冗系统构建方法,51
13、,主存储删冗系统PDFS,关键问题:数据如何有效组织传统思路:在一个大集合中找一个数据,如何能尽快确定地找到PDFS思路:在一个大集合中找一个数据,是否能仅在其某个子集合中查找,找到则进行数据精简,否则立即放弃。通过以数据压缩率的些许降低,获得了与普通主存储设备几乎一样的读写性能,52,现有大数据存储技术,分布式文件系统分布式RAID冗余删除系统,53,分布式文件系统,GFS,HDFS,MooseFS等使用多副本技术提高数据的可用性和性能当一个副本失效,系统自动进行数据的重分布,尽快恢复成3个副本多副本不仅带来可用性上的好处,也带来了性能上的好处缺点:需要3X的存储容量,存储效率低,成本高,5
14、4,分布式RAID,Garth Gibson等提出,并在Hadoop中实现了原型将RAID的思想扩展到网络连接的服务器上,分布式RAID6的效果是在典型负载下,以1.3X左右的容量获得容2个错的能力提出异步编码,即对新加入的文件,不马上进行RAID编码,而是先进行多副本拷贝,缺点:对常见的单点故障,数据恢复开销大,55,现有的存储冗余删除技术,在文件系统中存在广泛的冗余多用户存储的相同文件,同一文件的不同版本,同一类文件的相近的文件头等等冗余删除技术寻找文件内、文件之间的冗余数据块对同一块数据,只保存一份新加入的文件,分块后通过hash函数查找是否已保存有相同内容的数据块变长的数据块比定长数据
15、块能够删除更多的冗余数据根据使用场景不同,分为用于备份的删冗存储系统,如Venti,DataDomain等用于主存储系统的删冗系统,可以在典型负载下,降低存储需求30-40%,缺点:未考虑数据的可靠性,多个文件依赖同一数据块,如果该数据块损坏,多个文件都损坏,56,大数据的高效可靠存储解决方法,分布式RAID,冗余删除,分布式RAID和冗余删除的简单组合不能解决问题,两个技术在很多设计决策方面有冲突在块大小的选取块长是否可变编码时机编码范围数据块的摆放,系统化地将数据可用性和冗余删除技术统一考虑容2个错容量需求仅为0.9X,高可用性+冗余删除,57,2.大数据处理平台,58,关系数据库曾经是万
16、能的,关系数据模型,医院信息管理系统(HIS),临床信息系统(CIS),医学影像信息系统(PACS),ICU监护系统,电子病历,远程健康监护平台,用药管理系统,虚拟医院,59,关系数据模型的优点,具有强大的知识表达能力能够方便地为各种对象以及对象之间的联系设计逻辑模型关系代数理论十分完备,并且易于实现支持结构化查询语言,让用户无需了解数据库的实现,60,传统关系数据库的特点,重视关系数据模型功能的完整实现原子性、一致性、分离性和持久性(ACID)优化并发访问性能不重视设计容错的并行化执行引擎对“一次写多次读”的数据进行存储结构优化数据规模增大导致查询执行性能差的问题,61,大数据时代关系数据库
17、的困境,实现关系数据模型理论的全部内容,同时对所有查询做到高效执行,几乎是不可能的同样的查询,多种执行方式,如何优化执行?数据与查询在变化,不存在普适的物理存储结构和查询优化方法数据规模增大,原来高效的算法会变得低效实现事务处理要求的原子性、一致性、分离性和持久性(ACID)的开销巨大,62,能够并行化不意味着高可扩展性,复杂分析查询,结果,1000小时,复杂分析查询,结果,复杂分析查询,结果,1小时?,1个节点,100小时,10个节点,10小时?,100个节点,复杂分析查询,结果,1000个节点,节点失效、网络中断将成为常态!,执行过程中出错,传统的并行数据库将重新执行整条查询!,可能永远也
18、无法完成查询,63,大数据存储管理系统分类,结构化存储(如关系型数据库与数据仓库):优点:数据结构良好、功能完备、速度快缺点:灵活性差、不易扩展、预处理开销大日志式存储(如Hadoop Hive):优点:无需预处理、灵活性强、易于扩展缺点:功能较弱,需用户介入以提供高级查询功能半结构化存储(如BigTable、Key/Value存储):优点:速度快,易于扩展,预处理开销适中缺点:功能相对较弱,介于前两者之间,64,例一用电信息的大数据处理,65,用电信息的典型业务应用场景,业务应用场景低压数据完整率统计终端通讯流量统计低压日电量计算用户负荷数据查询测试的目的比较传统Oracle数据库以及新型的
19、大数据处理方法的性能,66,用电信息的大数据处理特征,计算业务数据量规模十分庞大,并且随着数据获取精度的提高,数据规模增长非常迅速计算任务会涉及到不同的计算场景,即构造不同的应用来获取不同的数据进行计算计算任务会从多个数据源获得数据,并进行联合分析,做数据的交叉,67,新的并行计算设计范式:MapReduce,68,MapReduce+GFS与并行数据库的比较,水平扩展,并行数据库查询速度快(100节点以内)缺点:可扩展性差容错性差价格昂贵,MapReduce+GFS高可扩展开源免费缺点:进行复杂查询时,需要专门编写代码,垂直扩展,网络存储结构,数据处理模式,69,测试环境,本次测试环境由6台
20、机器构成,采用Hadoop架构,其中1台作为Master,另外5台作为Salve或RegionServer,测试通过在Master节点上执行Shell/HQL脚本以及即时查询来完成。计算节点CPU:Xeon E7 4807 1.87G 4核8线程 共计2颗操作系统:CentOS网卡:1000M网卡内存:32G Oracle测试节点配置情况两台小型机上HP安腾小型机,16路,64G内存,硬件造价在300万左右,通过Oracle RAC的方式承担数据存储和数据计算的任务,70,测试数据记录数目,某省3个月用电数据任务表:456958条低压低压测量点表:6100615条低压表记表:3400231条低
21、压用户表:5716317条低压数据主表:3653409条低压电量数据表:464562614条终端资产表:890620条,71,4类场景测试结果对比,测试中所使用的4个场景,性能平均提升9.8倍,例二社保系统审计大数据处理,73,审计署全国社会保障数据采集情况,为了开展针对我国社会保障的摸底性审计工作,审计署于2012年开展了全国社会保障资金审计。对全国各省、市、县,13种资金类别的历年社会保障数据开展了数据采集工作。数据细化到每个参保人、每个参保企业各月的缴费及支付信息。最终获得近100T的社会保障数据。,74,由于我国社会保障信息化建设呈现非常显著的“碎片化”特点,即不同地区、不同资金甚至不
22、同年度,所采用的信息系统均不相同。导致本次国家审计的数据采集工作涉及到几百种异构信息系统,多数信息系统包含上百张表、上千数据项。涉及Oracle、DB2、SQLServer、Sybase、MySQL、Access、FoxPro等几乎全部主流DBMS系统,也不乏Excel、Txt等利用文件管理的情况,部分地区甚至仍处于手工纸质管理阶段。,社会保障数据的“碎片化”现状,75,划分方式,数据存储方式,险种的差异,统筹地域与行政区划的异同,社保的业务流程,集中存储分散存储混合,征缴管理发放,社会保障数据的“碎片化”现状,社保信息系统的碎片化可按照险种、存储方式等划分的几类实际情况,其他因素包括信息化推
23、进程度、地域执行、行业、时间等。,基本养老基本医疗工伤等低保等,统筹层次与区划相同统筹层次高于区划统筹层次低于区划混合,76,地市区划或行业划分,业务流程,险种,森工行业企业职工基本养老保险发放数据,A市职工基本医疗保险征缴数据,数据采集示例-数据集中情况,此图示中所代表的不同划分方式下的社保数据碎片化程度,社会保障数据的“碎片化”现状,某省社保数据按照险种、行业和业务经办的不同,造成的割裂情况。,77,部分地区数据库类型及信息管理方式的差异。,社会保障数据的“碎片化”现状,78,政策分析模型,绩效监测模型,分析型监测模型,合法性合规性监测模型,基础数据统计,业务审计、财务审计、复核审计,供养
24、比、替代率、基尼系数,可持续性、政策一致性等,社会保障审计监测模型体系架构,审计署全国社会保障数据分析特点,2023/3/6,79,例三某省移动大数据处理,某省移动大数据处理任务需求描述,移动的每次业务(通话,上网,发短信)都会产生一个类似日志一样的记录,这个记录跟地理位置相关,记录了业务的详细信息。移动公司希望通过这些业务记录数据的挖掘,对服务质量,进而对基站设置、布局等提出评估和指导。计算任务主要两部分:(1)对业务的地理位置进行定位。日志收上来之后,没有了地理位置信息,要逐条记录进行恢复,这部分计算量很大,且要求接近实时的方式完成。(2)对定位好的日志信息,进行统计,如一段时间一个地理范
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 存储 处理 平台 研究
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-2973812.html