中国服务器细分产业分析Intel架构服务器.docx
《中国服务器细分产业分析Intel架构服务器.docx》由会员分享,可在线阅读,更多相关《中国服务器细分产业分析Intel架构服务器.docx(26页珍藏版)》请在三一办公上搜索。
1、中国服务器细分产业分析Intel架构服务器第一节20132014年Intel架构服务器的发展概况一、IIltel架构服务器市场分析自1989年起英特尔就一直有条不紊地遵循着其称为“Tick-Tock模式”的新产品创新节奏,即每隔一年交替推出新一代的先进制程技术和处理器微体系架构,随着时间的推移,我们逐渐看到了这二者在处理器整体性能表现中所起到的作用已远远超出了处理器主频和缓存技术。先进的制成技术为处理器性能的变革提供了一个良好的基础,而优秀的核心架构则能够弥补处理器主频的不足,更能简化缓存设计而降低成本,二者结合才是优秀处理器的根基。然而对于处理器厂商而言,更换核心架构是极其艰难的举动,因为这
2、将投入大量研发资金,更冒着性能不佳的风险。1引言(今天我们主要谈谈处理器架构,至于制成技术大家可以查阅“32纳米”词条)回顾历代处理器,我们不难发现英特尔在绝大部分时间内都保持业界的领先地位,无论是早期的P5/P6微架构,还是造就辉煌的Core微架构以及即将全面铺向市场的NehaIem微架构处理器,都已经或者即将促使整个产业的变革。2P5架构奔腾采用P5架构,这被证明是伟大的创举。在英特尔的发展历史中,第一代奔腾绝对是具有里程碑意义的产品,这一品牌甚至沿用至今,已经有十几年的历史了。尽管第一代奔腾60的综合表现很一般,甚至不比486DX66强多少,但是当主频优势体现出来之后,此时所表现出来的威
3、力令人震惊。奔腾75、奔腾100以及奔腾133,经典的产品一度称雄业界。3P6架构在奔腾时代,虽然英特尔在处理器微架构方面一直保持着领先,但是英特尔并未停止前进的步伐,于是在发布奔腾的下一代产品奔腾11时,英特尔采用了专利保护的P6架构。P6架构与奔腾的P5架构最大的不同在于,以前集成在主板上的二级缓存被移植到了处理器内,从而大大地加快了数据读取和命中率,提高了性能。4常见架构NetBurst架构Netburst微架构是P6微架构的后继者,第一个使用这架构的是Willamette核心,于2000年推出。Willamette是第一代奔腾IV处理器所用的核心,而全部的奔腾IV处理器都是使用Netb
4、UrSt微架构。2001年推出的FOSter(至强处理器)也是使用本架构,同时基于奔腾IV的赛扬、赛扬D,以及双核心的奔腾D、奔腾EXtrem6Edition都是使用本架构。立足于性能而设计的英特尔NetBurst微架构将频率提升超过了40%,虽然IPC值较低,但由于频率的增加弥补了不足(性能=频率XlPC),并且为最终用户提供了更高的整体性能。和P6微架构一样,英特尔NetBurst微架构凭借无序推测执行,尽管分支预测算法相当精确,但也不可能100%正确。为了使由于分支误预测而引起的损失降到最低并使IPC均值最大化,采用扩展深度流水线技术的IntelNetBurst微架构极大地减小了分支预测
5、错误的数量,并提供了从这些错误恢复的快速方法。为了能使误预测引起的损失最小,英特尔NetBUrSt微架构实现了高级动态执行引擎和一个执行跟踪缓存。英特尔架构(9张)不过值得一提的是,英特尔NetBUrSt微架构中使用了超流水线技术,这使得流水线的深度相比P6微处理器体系结构的提高了一倍,不过在后来的实际应用中表明提高流水线长度之后会令执行效率大幅度降低,能够弥补这个问题的办法只能是再次提高主频和增加二级缓存容量。不过由于当时处理器工艺制成的限制,导致处理器的主频的可提升空间越来越小,与此同时巨大的缓存容量也是一个负担,这不仅提高了成本,也令发热量骤升。这一点使得英特尔必须要及时地对处理器微架做
6、出新的,根本性地调整。Core微架构由于NetBurst架构已经无法满足未来处理器发展的需要,所以英特尔于2006年推出了具有革新意义的COre微架构。1 .流水线效率大幅度提升主频至上的处理器研发思路显然已经被淘汰。COre微架构的处理器将超流水线缩短到14级,这将大幅度提升整体效率。此外COre微架构采用了四组指令编译器,就是指能够在单一频率周期内编译四个x86指令。这四组指令编译器由三组简单编译器(SimpleDecoder)与一组复杂编译器(ComPleXDeCoder)组成。四组指令编译器中,仅有复杂编译器可处理最多由四个微指令所组成的复杂x86指令。如果不幸碰到非常复杂的指令,复杂
7、编译器就必须呼叫微码循序器(MicrocodeSequencer),以便取得微指令序列。为了配合超宽的编译单元,COre微架构的指令读取单元在一个频率周期内,从第一阶指令快取中,抓取六个86指令至指令编译缓冲区(InStrUCtionQueue),判定是否有符合宏指令融合的配对,然后再将最多五个x86指令,交派给四组指令编译器。四组指令编译器在每个频率周期中,发给保留站(ReServationStation)四个编译后的微指令,保留站再将存放的微指令交派(dispatch)给五个执行单元。因为x86指令集的指令长度、格式与定址模式都相当混乱,导致x86指令解码器的设计是非常困难的。但是如今的局
8、面已经有所改变,一方面是高主频对于四组精简结构有着很大的依赖性,另一方面是其它辅助性技术也能很大程度上弥补解决定址模式混乱的难题。毫无疑问,英特尔的这一创举将是在处理器核心架构设计上具有里程碑意义的。2 .全新的整数与浮点单元从P6到NetBurst架构,整数与浮点单元的变化还是相当明显,不过Core微架构的变化也同样不小,只是部分关键技术又改回P6架构时代的设计。Core具备了3个64bit的整数执行单元,每一个都可以单独完成的64位整数运算操作。能够独立完成64bit整数运算对英特尔x86处理器来说还是头一回,这也让COre得以走在了竞争对手的前列。此外,64bit的整数单元使用彼此独立的
9、数据端口,因此Core能够在一个周期内同时完成3组64bit的整数运算。极强的整数运算单元使得Core在包括游戏、服务器项目、移动等方面都能够发挥广泛而强大的作用。在以往的NetBUrSt架构中,浮点单元的性能很一般,Core构架针对这个问题进行了不小的改进。Core构架拥有2个浮点执行单元同时处理向量和标量的浮点运算,其中一个浮点单元执行负责加减等简单的处理,而另一个浮点单元则执行负责乘除等运算。尽管不能说Core构架令浮点性能有很大幅度的提升,但是其改进效果还是显而易见的。3 .数据预读机制与缓存结构Core微架构的预读取机制还有更多新特性。数据预取单元经常需要在缓存中进行标签查找。为了避
10、免标签查找可能带来的高延迟,数据预取单元使用存储接口进行标签查找。存储操作在大多数情况下并不是影响系统性能的关键,因为在数据开始写入时,处理器即可以马上开始进行下面的工作,而不必等待写入操作完成。缓存/内存子系统会负责数据的整个写入到缓存、复制到主内存的过程。此外,Core架构使用了SmartMemoryAccess算法,这将帮助处理器在前端总线与内存传输之间实现更高的效率。COre架构的缓存系统也令人印象深刻。双核心COre架构的二级缓存容量高达4MB,且两个核心共享,访问延迟仅12到14个时钟周期。每个核心还拥有32KB的一级指令缓存和一级数据缓存,访问延迟仅仅3个时钟周期。从NetBur
11、st架构开始引入的追踪式缓存(TraCeCache)在Core架构中消失了。NetBUrSt架构中的追踪式缓存的作用与常见的指令缓存相类似,是用来存放解码前的指令的,对NetBUrSt架构的长流水线结构非常有用,而COre架构回归相对较短的流水线之后,追踪式缓存也随之消失。Nehalem微架构经历Core微架构的辉煌之后,英特尔再接再厉,于2008年末推出了新的Nehalem微架构,它基本是建立在Core微架构的骨架上,外加增添了SMT、3层CaChe、TLB和分支预测的等级化、IMC、QPI和支持DDR3等技术,比起从Pentium4的NetBurst架构到Core微架构的较大变化来说,从C
12、ore微架构到Nehalem微架构的基本核心部分的变化则要小一些。1.QPI总线技术Nehalem架构使用的QPl总线是基于数据包传输(packet-based)高带宽、低延迟的点到点互连技术(Pointtopointinterconnect),速度达至!j6.4GTs(每秒可以传输6.4G次数据)。每一条连接(Iink)是20bit位宽的接口,使用高速的差分信号(differentialsignaling)和专用的时钟通道(dedicatedclocklane),这些时钟通道具有失效备援(failover)oQPl数据包是8Obit的长度,发送需要用4个周期。尽管数据包是8Obit,但只有6
13、4bit是用于数据,其它的数据位则是用于流量控制、CRC和其它一些目的。这样,每条连接就一次传输16bit(2Byte)的数据,其余的位宽则是用于CRC。由于QPI总线可以双向传输,那么一条QPI总线连接理论最大值就可以达到256GBs(22B6.4GTs)的数据传送。单向则是12.8GB/S。(更详细资料参考“快速通道互联QPr词条)2.IMC整合内存控制器NehaIem架构的IMC(integratedmemorycontroller,整合内存控制器),可以支持3通道的DDR3内存,运行在1.33GTs(DDR3-1333),这样总共的峰值带宽就可以达到32GBso不过还并不支持FB-DI
14、MM,要NehalemEX(Beckton)才有可能会支持FB-DIMM(FullyBuffered-DIMM,全缓冲内存模组)。每通道的内存都能够独立操作,控制器需要乱序执行来降低(掩盖)延迟。(更详细资料参见整合内存控制器词条)3.SMT同步多线程(SimUltaneoUSMUlti-Threading,SMT)技术又重新回归到了NehaIem架构,这最早出现在130纳米的奔腾IV上。对于打开了SMT的处理器来说,将会遭受到更多的命中失败,并需要使用更多的带宽。所以Nehalem比奔腾IV是更适合使用SMT的。Nehalem的同步多线程(SimultaneousMulti-Threadin
15、g,SMT)是2-way的,每核心可以同时执行2个线程。对于执行引擎来说,在多线程任务的情况下,就可以掩盖单个线程的延迟。SMT功能的好处是只需要消耗很小的核心面积代价,就可以在多任务的情况下提供显著的性能提升,比起完全再添加一个物理核心来说要划算得多。这个和以前P4的HT技术是一样的,但比较起来,NehaIem的优势是有更大的缓存和更大的内存带宽,这样就更能够有效的发挥。按照英特尔的说法,Nehalem的SMT可以在增加很少能耗的情况下,让性能提升20-30%。(更详细资料参见同步多线程技术词条)4.全新设计的缓存体系Nehalem的每个核心有一个私有的通用型L2,是8路联合的256KB,访
16、问速度相当快。Nehalem的L2相对于其LlD来说,既不是包含式(inclusive)也不是独占式(exclusive),可以在两个核心的私有缓存(LlD和L2)之间传递数据,尽管不能够达到全速。与Core微架构相比,Nehalem新增加了一层L3缓存,这是为了多个核心共享数据的需要(Nehalem-EX具有8个核心),也因此这个L3的容量很大。从架构上看,Nehalem架构的处理器所配备的16路联合、8MB的L3对于前两级来说,是完全包含式的,并且由4个核心共享。(更详细资料参见新增缓存层级体系词条)5发展步调英特尔长期以来不懈遵循摩尔定律,一直是引领行业创新的排头兵。通过对处理器架构的不
17、断创新,这种惊人的创新速度不仅提升了处理器的性能,还提供了新的特性和能力,最终满足了用户日益增长的需求。我们十分关注这种持续的发展,行业需要能够以更快且更加可预测的创新步伐来提供平台,这些平台的特点就是更快、能够实现更多连接、值得信赖、个性化且能够带来出色的计算体验。凭借行业领先的芯片专业知识,以及将为未来十年及以后提供强劲增长动力的架构设计能力,英特尔公司已迈出了协调且日益加快的架构创新步伐。指什么发展步调是指英特尔公司的战略,即大约每两年推出一款新的微体系结构和新一代硅制程技术。英特尔公司在硅制程技术上的不断创新使晶体管密度约每两年就要翻一番,这就为处理器设计师提供了强大的设计灵活性来设计
18、出更出色的产品。过去,设计灵活性一直被用来在降低功耗的同时提供更卓越的性能和特性。展望未来,用户不断增长的需求将要求更加快速地提升性能,并跨越模糊的使用界限实现各种能力的融合。因此,这就需要一种能够跨越广泛使用领域进行扩展的解决方案架构,而这一目标只能通过全行业的创新来实现。英特尔架构和芯片发展步调模式可提供强大的创新动力,不但能够以快速、协调的步伐推动全新处理器架构和芯片组的发展,而且还能成为平台级行业创新的“催化剂”,提供高能效表现的种种优势。特征发展步调所坚持的原则基于英特尔公司所谓的芯片和微体系结构“tick-tock”模式。该模式将提供一款横跨所有规模市场的通用处理器架构。每一“ti
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国 服务器 细分 产业 分析 Intel 架构
链接地址:https://www.31ppt.com/p-5686408.html