InfiniBand高速网络互连技术.ppt
《InfiniBand高速网络互连技术.ppt》由会员分享,可在线阅读,更多相关《InfiniBand高速网络互连技术.ppt(159页珍藏版)》请在三一办公上搜索。
1、InfiniBand高速网络互连技术,清风明月 2012年5月,内容提要,超级计算机系统及其互连结构Infiniband互连网络的体系结构在HPC中的典型互连架构及应用IB网络优化技术未来展望,Lecture 1,Lecture 2,内容提要,超级计算机系统及其互连结构Infiniband互连网络的体系结构在HPC中的典型互连架构及应用IB网络优化技术未来展望,国际超级计算机500强排名(TOP500),是美国田纳西大学、伯克利NERSC实验室和德国曼海姆大学一些专家为评价世界超级计算机性能而搞的民间学术活动,每年2次排出世界上实际运行速度最快的前500台计算机。(6月、11月)排名的依据是线
2、性代数软件包Linpack的实际测试数据,而峰值浮点运算速度作为参考值列出。Linpack基准测试程序是一个可以分解和解答线性方程和线性最小平方问题的Fortran子程序集.于20世纪70年代到80年代初为超级计算机而设计测试出的最高性能指标作为衡量机器性能的标准,4,TOP500分析,中国TOP100总Linpack性能达到11.85 Pflops(2010年6.3PFlops),是2010年的1.88倍;跟全球TOP500相比,2011年6月全球TOP500排行榜第一名被日本的K-Computer夺得,2010年11月TOP500第一名的天河1A降为世界第二,但中国的机器份额首次取得第二名
3、,仅次于美国;国家超级计算天津中心以国防科大天河1A再次蝉联中国TOP100第一名,Linpack性能2.57PFlops,峰值4.7PFlops;国家超级计算济南中心以国家并行计算机工程技术研究中心全国产神威蓝光力夺得中国TOP100第二名,Linpack性能795.9TFlops,峰值1.07PFlops,神威蓝光是我国历史上首台全国产的千万亿次超级计算机;国家超级计算长沙中心以国防科大天河1A-HN力夺中国TOP100第三名,Linpack性能771.7TFlops,峰值1.34PFlops。全部机器的Linpack性能超过22.1Tflops是2010年9.6TFlops的2.3倍,比
4、去年的1.41倍大幅提升。全部系统的峰值超过25.6TFlops,是2010年11TFlops的2.33倍,比去年的1.36倍大幅提升;排名前三的机器两套是CPU+GPU异构MPP;97个(2010年98个)系统都是机群架构,机群继续占据主导地位,在前10名里4台是CPU+GPU体系架构,在TOP100中共有13套CPU+GPU异构机群。,近3年来的TOP5超级计算机系统,No1:K Computer,日本理化研究所(RIKEN)高级计算科学研究院(AICS)和富士通共同研制每秒运算速度超越1亿亿次大关。Linpack测试的最大计算性能达到了10.51PFlops,也就是每秒钟1.051亿亿次
5、浮点计算,这也是人类首次跨越1亿亿次计算大关。采用的处理器是富士通制造的SPARC64 VIIIfx,八核心,主频2.0GHz,二级缓存6MB,热设计功耗58W,峰值浮点性能128GFlops。为了获得更高性能,富士通还在其中加入了一系列高性能集群计算扩展,可以有效管理其共享二级缓存,并支持SIMD、每核心256位浮点寄存器、高级核心间硬件同步等等。处理器数量是88128颗,核心数量为705024个,占据864个机柜。这些处理器通过名为“豆腐”(Tofu)的特殊6-D mesh/torus网络连接在一起,带宽5GB/s。同时,“京”的峰值计算性能也达到了11.28PFlops,执行效率为惊人的
6、93.2%,ASCI Springschool 2012,Henk Corporaal,(8),K Computer:10.51 Petaflop/s on Linpack 705024 SPARC64 cores(8 per die;45 nm)(Fujitsu design)Tofu interconnect(6-D torus)12.7 MegaWatt,K Computer的互连架构,6D-mesh/Tours,No 2:天河-1A,国防科技大学,这是超过美国橡树岭国家实验室产品高达40的系统。达到每秒万亿次的峰值性能和每秒万亿次的实测性能。14336颗英特尔六核至强X5670 2.9
7、3GHz CPU、7168颗Nvidia Tesla M2050 GPU,以及2048颗自主研发的八核飞腾FT-1000处理器 天河一号A将大规模并行GPU与多核CPU相结合,在性能、尺寸以及功耗等方面均取得了巨大进步,是当代异构计算的典型代表。该系统采用了7168颗英伟达(NVIDIA)Tesla M2050 GPU以及14,336颗CPU。如果单纯只使用CPU的话,要实现同等性能则需要50,000颗以上的CPU以及两倍的占地面积。更重要的是,如果完全采用CPU打造,可实现2.507 Petaflops(千万亿次)性能的系统将消耗1200万瓦特的电力。多亏在异构计算环境中运用了GPU,天河一
8、号A仅消耗404万瓦特的电力,节能效果高达3倍。二者之间的功耗之差足够满足5000多户居民一年的电力所需。,三大突破,“天河一号”除了使用了英特尔处理器,还首次在超级计算机中使用了2048个我国自主设计的处理器。这款名为“飞腾-1000”的64位CPU。它利用65纳米技术设计生产,共有8个核心。中国首创了CPU和GPU融合并行的体系结构。制造了先进的通信芯片,设计了先进的互联结构。160Gb/s,是国际上的商用IB的两倍。,13,TH-1A互连架构,超级胖树结构,NO.3 Jaguar美洲虎,2.331PflopsCray XT5-HE Opteron Six Core 2.6 GHz,近25
9、万个内核,美洲虎的3D-Torus,CRAY 超级计算机的Roadmap,Cray XT5:1+PFLeadership-class system for science,DARPA HPCS:20 PFLeadership-class system,FY 2009,FY 2011,FY 2015,FY 2018,Future system:1 EF,100250 PF,美洲虎,NO.4 曙光“星云”,2.9843Pflops,Infiniband互连,No14:神威蓝光:全国产化的超级计算机问世,该机器获得科技部863计划支持,由国家并行计算机工程技术研究中心制造,于2011年9月安装于国家
10、超算济南中心,全部采用自主设计生产的CPU(ShenWei processor SW1600),系统共8704个CPU,峰值1.07016PFlops,持续性能795.9TFlops,Linpack效率74.37%,总功耗1074KW。国家超级计算济南中心是科技部批准成立的全国3个千万亿次超级计算中心之一,由山东省科学院计算中心负责建设、管理和运营。是国内首台全部采用国产中央处理器(CPU)和系统软件构建的千万亿次计算机系统,标志着我国成为继美国、日本之后第三个能够采用自主CPU构建千万亿次计算机的国家。,神威蓝光拥有四大特点:,全部采用国产的CPULinpack效率高达74.4%,而一般的千
11、万亿次机都在50%左右采用液冷技术,节能高密度,在一个机仓(机柜)里可以装入1024颗CPU,千万亿次规模仅需要9个这样的机仓。,计算机节点,在1U高的机箱中可以放入4个CPU板,每个板上可以装两颗16核的CPU。,这就是神威蓝光的“心脏”:申威1600实物照,在计算节点中采用液冷(据说是使用500元1吨的纯净水)设计也是神威蓝光的一大技术特色,中间是铝制液冷散热板。,国内三大系统比较,Opteron socket,Roadrunner(走鹃)Part 1:Opteron Blades,Opteroncore,Opteroncore,1.8 GHz3.6 Gflop/s64+64 KB L1
12、cache2 MB L2 cache,LS21 Blade,Roadrunner(走鹃)Part 1:Opteron Blades,8 GBDDR2 memory,8 GBDDR2 memory,Roadrunner(走鹃)Part 1:Opteron Blades,Roadrunner ArchitecturePart 2:Cell Blades,Roadrunner ArchitecturePart 2:Cell Blades,Roadrunner ArchitecturePart 3:Nodes(Triblade=1*Opteron+2*cell),Roadrunner Architec
13、turePart 4:Scaling Out,BladeCenter,BladeCenter,BladeCenter,BladeCenter,Compute Unit(CU),Roadrunner ArchitecturePart 4:Scaling Out,Roadrunner ArchitecturePart 4:Scaling Out,Roadrunner Architecture,IBM计划10万万亿次HPC 12倍于世界最快!,今年预计BlueGene/Q“Sequoia”其峰值性能可达到20petaflops,而其升级版将是首个超过10万万亿次浮点计算的超级计算机,达到107pet
14、aflops,是目前世界最快K Computer的12倍。,Sequoia(红杉),Sequoia超级计算机是IBM正在为Lawrence Livermore国家实验室研制的一种超级计算机,而这种计算机中使用的Blue Gene/Q处理器就将采用IBM在Hot Chips大会上发表的论文中披露的这种新部件。Sequoia将在2012年完工,有望提供20petaFLOPs(peta1015)的强大性能。当Sequoia完工时,这台超级计算机可能成为世界上功能最强大的系统之一。,计算机技术的发展,自1946年以来,计算机近70年有了惊人的发展性能:(加法)速度提高了5个数量级计算机性能以大约每年3
15、5%的速度提高价格:今天$1000的机器相当于60年代中$106的机器,这里同性能计算机的价格比,改善了个数量级。,处理器速度持续提高(广度),从1971年第一颗微处理器Intel 4004问世以来,40年间处理器芯片集成的晶体管数目从2300个发展到今天的数十亿个,处理器频率从不到1MHz发展到今天最高接近5GHz,与英特尔4004相比,如今下一代英特尔酷睿处理器的性能是其35万倍,每个晶体管的能耗却降低了5千倍。同期,晶体管的价格下降了约5万倍。,在30年间计算机系统的速度提高了6个数量级,对计算能力的需求持续增长,超级计算机的性能趋势,CAGR=1.9,1st Pasadena Peta
16、flops Workshop,GFlops,ExaFlops,PetaFlops,TeraFlops,Figure courtesy of Peter Kogge,超级计算机发展路线图,2010,2020,2030,2050,TOP500中的互连网络统计,TOP500 Nov 2011,IB占42%TOP10中有5家采用IB(4/5/7/9/10)TOP20中有8家TOP100中有55%采用IB基于GPU混合系统中有92%采用IB,TOP100中的IO互连架构统计,在TOP100机器的IO互连中55%采用IB,Top500中各种互连的趋势图,典型商业互连网络的性价比,Top500中IB互连的趋
17、势图,内容提要,超级计算机系统及其互连结构Infiniband互连网络的体系结构在HPC中的典型互连架构及应用IB网络优化技术未来展望,为什么TOP500中有42%机器采用IB互连?,高带宽目前主流的单链路传输能力40Gbps,10GB以太网不可比拟超低延时应用程序之间通信延时小于1 us高可靠性、低误码率、自管理的网络链路级流控拥塞控制,IB网络组成,Host Channel Adapters(HCA)Target Channel Adapters(TCA)SwitchesRouters,IB网络组成,多个子网,每个子网是一个独立的路由域子网之间通过交换机互连,一般的HPC只使用一个子网。,
18、IB网络硬件实体,IB网络硬件实体,Blade/RackServers,Storage,Switch,SWITCH,基于IB网络构建的Cluster系统,CA(端结点-主机适配卡),两种类型的CAHCA,通过IB verbs为用户提供操作TCA,IBA未定义TCA接口语义CA是一个具备一定保护功能的可编程DMA引擎,Virtual Lane(VL),Local ID(LID),独立的发送和接收缓冲区,内存翻译和保护,子网管理代理,GUID,IB交换机(多端口交换),子网内部路由设备交换机端口具备LID,具有HCA特性。子网内部的每个端口分配一个或多个唯一的LID通过报文Local Route
19、Header标识目标端口LID,交换机根据该地址信息交换到目标端口提供单播和多播路由支持多路径(负载均衡,链路容错),IB传输分层(对比TCP/IP),Physical Layer Link Rate,InfiniBand使用串行差分链路传输链路宽度1x One differential pair per Tx/Rx 4x Four differential pairs per Tx/Rx8x Eight differential pairs per Tx/Rx12x-Twelve differential pairs per Tx and per Rx链路速度Single Data Rate
20、(SDR)-2.5Gb/s per lane(10Gb/s for 4x)Double Data Rate(DDR)-5Gb/s per lane(20Gb/s for 4x)Quad Data Rate(QDR)-10Gb/s per lane(40Gb/s for 4x)Fourteen Data Rate(FDR)-14Gb/s per lane(56Gb/s for 4x)Enhanced Data rate(EDR)-25Gb/s per lane(100Gb/s for 4x)目前多采用4X链路,Physical Layer link width,Lane的概念,1x即1 lane
21、,类似于PCIE lane,1 x Link,4 x Link,12 x Link,IB物理链路速率历程,串行高带宽链路SDR:10Gb/s HCA linksDDR:20Gb/s HCA linksQDR:40Gb/s HCA linksFDR:56Gb/s HCA linksEDR:100Gb/s HCA links,Physical Layer Cables&Connectors,单个物理信道上复用多个虚拟链路信道,Link Layer Protocol,Message长度最大2GbyteMTU尺寸从256byte到最大 4Kbyte,Link Layer Addressing,每个节点
22、(HCA端节点和交换机)必须拥有一个全局唯一的64位ID(GUID),类似于以太网MAC地址。同时,为了方便路由,在每个子网内为节点分配一个本地ID(LID)-16 bits,子网内线性编号,GUID,GUID,GUID,GUID,GUID,GUID,GUID,GUID,LID=1,LID=2,LID=3,LID=4,LID=5,LID=6,LID=7,LID=8,IB通信协议的硬件实现原理,Transport Layer Using Queue Pairs,发送和接收队列是成对出现的。,Transport Layer 队列模型,IB通信传输示例,Link Layer Flow Control
23、,基于信用(Credit)的链路级流控反压原理,Transport Layer Services Properties,可靠与不可靠面向连接与数据报(非面向连接),服务分类,如何管理子网?,IB网络维持一个子网管理器Subnet Manager(SM)是一个独立软件通过与每个节点上的子网管理代理通信的方式来管理子网,子网管理和路由,每个子网必须有一个子网管理器子网管理器的作用:管理IB网络中的所有节点,包括端节点HCA和交换机SW子网网络拓扑发现 为每个节点分配一个本地ID(LID),用于路由为交换机分配转发表,用于网络路由监控子网状态,当网络发生改变时负责重新分配路由表。维护网络正常运转,子
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- InfiniBand 高速 网络 互连 技术

链接地址:https://www.31ppt.com/p-6508212.html