大数据存储与处理-第二讲.ppt
《大数据存储与处理-第二讲.ppt》由会员分享,可在线阅读,更多相关《大数据存储与处理-第二讲.ppt(51页珍藏版)》请在三一办公上搜索。
1、大数据的三个关键问题Google的大数据技术Google的业务:PageRank三大法宝,1,第二讲 大数据的关键技术,文件存储,数据分析数据计算数据存储,平台管理,数据集成,数据源,Database Web Log,现代数据处理能力组件,现代数据处理框架,三大关键问题3V,计算存储,容错,三大关键问题,存储计算容错,存储问题,解决大数据存储效率的两方面:,容量,吞吐量,容量,单硬盘容量提升:MB GB TB 系统整体容量提升:DAS、NAS、SAN,吞吐量=传输数据量/传输时间,单硬盘吞吐量提升:转速、接口、缓存等 节点吞吐量提升:RAID、专用数据库机,提升吞吐量,RAID:Redunda
2、nt Array of Inexpensive Disks,冗余磁盘阵列,把多块独立的硬盘按一定的方式组合起来形成一个硬盘组,从而实现高性,能和高可靠性,RAID0:连续以位或字节为单位分割数据,并行读/写于多个磁盘上,提升,吞吐量,Source:,三大关键问题,存储计算容错,多核技术,Moor定律:当价格不变时,集成电路上可容纳的晶体管数目,约每,隔18个月便会增加一倍,性能也将提升一倍。,采用多核(Multi-core)技术提升IPC,从而突破性能提升瓶颈。,指令数,主频,IPS MF IPC,多处理器技术,多处理器技术的核心:,按处理器之间的关系可以分为两类:,1 F 1 F/N,非对称
3、多处理器架构(ASMP),不同类型计算任务或进程由不同处理器执行简单,操作系统修改小低效早期过渡性架构,对称多处理器架构(SMP),所有处理器完全对等计算任务按需分配高效普遍采用,并行模式,独立并行,两个数据操作间没有数据依,赖关系,可以采用独立并行的方式分配给不同的处理器执行例:两个独立数据集的Scan,操作,流水线并行,多个操作间存在依赖关系,且,后一个操作必须等待前一个操,作处理完后方可执行将多个操作分配给不同处理器,但处理器间以流水线方式执行,例:Scan Sort Group,分割并行,数据操作的输入数据可以分解为多个,子集,且子集之间相互独立,分割为若干独立的子操作,每个子操作只处
4、理对应的部分数据,并将这些子操作配到不同的处理器上执行,例:Scan Merge,并行系统架构,共享内存(Shared Memory,SM),多个处理器,多个磁盘,一个共享,内存,通过数据总线相连,处理器间共享全部磁盘和内存,结构简单,负载均衡数据总线成为瓶颈,可扩展性较差,共享内存单点故障适合处理器较少(8)的小规模并行数据库,共享磁盘(Shared Disk,SD),多个处理器,每个处理器拥有独立,内存,多个磁盘,处理器与磁盘通,过数据总线相连,处理器间共享全部磁盘容错性提高共享磁盘成为性能瓶颈,需要额外维护内存与磁盘间的数据一致性,无共享(Shared Nothing,SN),每个处理器
5、拥有独立的内存和若干磁盘,,通过高速网络相连,处理器独立处理所管理的数据,数据传输量小,效率高可扩展性强节点间交换数据开销较大适合处理器数量较大的大规模并行系统后期发展的主流,三大关键问题,存储计算容错,数据容错,RAID单节点数据冗余存储,RAID0:并行磁盘 RAID1:镜像冗余 RAID10:RAID1+RAID0 RAID5:校验冗余Source:,集群多节点数据冗余存储,计算任务容错,计算任务容错的关键问题:,故障监测,计算数据定位与获取 任务迁移,Google是如何解决其大数据处理的三个关键性问题的?我们需要先了解Google的业务特点。,14,Google的大数据技术,1995,
6、1996,1997,1999,2001,2003,2005,2007,2009,2011,.,1998,2000,2002,2004,2006,2008,2010,2012,当佩奇遇见布林,合作开发BackRub搜索引擎,命名Google,Google公司成立,首名专用厨师入职,建立10亿网址的索引,图片搜索+30亿网址索引,商品+新闻+API,开始收购+Google图书,80亿网址索引+上市+学术搜索,地图+Talk+分析,YouTube+GoogleApps,Gmail+街景+Android,Health+iPhone应用,社交网络搜索+实时 地图导航+搜索 收购Moto,手机+投 平板电
7、脑资能源+Google应用商店 眼镜,GoogleGoogle最重要的业务?搜索AdWords Google发展史,Google之前的搜索,目录型搜索:Yahoo!,收集:人工分类 索引:主题,使用:目录结构 优点:准确率高 缺点:覆盖率低,索引型搜索:AltaVista,收集:自动爬取(Scooter)索引:自动标记,使用:输入关键词搜索 优点:覆盖率高 缺点:准确率低,覆盖率 VS.准确率:鱼与熊掌不可兼得?,Google,Google的自我揭秘!核心算法 Lawrence Page,Sergey Brin,et.al.,The PageRank Citation Ranking:Brin
8、ging Order to theWeb.Technical Report,Stanford InfoLab,1999.(6881)三大法宝 Sanjay Ghemawat,Howard Gobioff,et.al.,The Google file system,Proceedings of theNineteenth ACM Symposium on Operating Systems Principles,2003.(3911)Jeffrey Dean,Sanjay Ghemawat,MapReduce:Simplified Data Processing on Large Cluster
9、s,Sixth Symposium on Operating System Design and Implementation,2004.(9569)Fay Chang,Jeffrey Dean,et.al.,Bigtable:A Distributed Storage System for Structured Data,Seventh Symposium on Operating System Design and Implementation,2006.(2558),灵魂,血肉,搜索结果如何排序!,佩奇(Page),斯坦福,整个互联网就像一张大的图,每个网站就像一个节点,每个网页的链接就
10、像一个弧。我想,互联网可以用一个图或者矩阵描述,我也许可以用这个发现做篇博士论文。,算法的图论表述,01/201/20,001/201/2,00010,00001,1/31/31/300,n1,n2,n3 n4 n5,PageRank(9)算法的计算问题,如何计算10亿、100亿个网页?,行列数以亿为单位的矩阵相乘!,Google三大法宝之一:MapReduce,矩阵乘法串行实现1:for i=1;i=N;i+,2:,for j=1;j=N;j+,3:4:5:6:,for k=1;k=N;k+Cij+=Aik*Bkjend forend for,7:end for 算法复杂度:O(N3)以1次
11、乘法需要1个时钟周期,计算10亿维度矩阵为例,使用1G的CPU,需要的计算时间为:t=10亿10亿10亿/10亿=317年!,是否OK?,想办法解决大规模矩阵相乘问题:我拆,Cm=Am B M台服务器并行计算,时间降低为1/M,C,A,B,C1,CmCM,A1,AmAM,=,想办法解决大规模矩阵相乘问题:我再拆,Cm,n=Am Bn M M台服务器并行计算,时间降低为1/M2,C,A,B,A1,AmAM,=,C1,1,Cm,1CM,1,B1,Bn,BM,子任务,子任务,子任务,拆的本质 分而治之 分而治之 Divide and Conquer 一个大的计算任务分解为若干小计算任务 子任务计算结
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 存储 处理 第二
链接地址:https://www.31ppt.com/p-6043565.html