多核技术概述.ppt
1,多核程序设计,多核技术概述,2,第一章 多核技术概述,一、微处理器的发展史二、并行计算机三、系统芯片发展四、片上多核处理器构架五、芯片组对多核的支持六、操作系统对多核处理器的支持方法,3,一、微处理器发展史,1945年,世界上第一台全自动电子数字计算机ENIAC(埃尼阿克)。采用电子管,作为基本原件,每秒可进行5000次加减乘除,占地172平米,重30吨,耗电150千瓦。,他的问世表明计算机时代的到来。,从此以后计算机技术的发展日新月异。,4,计算机的发展按照硬件工艺可以分为四个阶段:,第四代(1971年以后):大规模集成电路数字计算机。逻辑原件和主存都采用大规模集成电路。,第三代(19641971):集成电路数字计算机。软件完善,分时操作系统、会话式语言都有发展。,第二代(19581964):晶体管数字计算机。外存采用磁盘;出现各种高级语言及编译程序。,第一代(19461958):电子管数字计算机。主存使用汞延迟线、磁鼓、磁芯;外存采用磁带。软件主要使用机器语言、汇编语言。,5,计算机的发展方向:,巨型机,微型机,银河系列、曙光系列,PC机,核心:微处理器(体积小、重量轻、功耗低、功能强、可靠性高、结构灵活),6,1971年,第一款微处理器4004,4位,2300个晶体管1978年,英特尔公司8086,16位,801861979年,英特尔公司又开发出了8088,集成完善801881981年,美国IBM公司将8088芯片用于其研制的PC机 1982年,英特尔公司研制出了80286微处理器 1985年10月17日,英特尔80386 DX正式发布,32位,Cache1989年,英特尔推出80486芯片,120万个晶体管1993年,新一代586 CPU问世,奔腾系列,0.5m1996年底,多能奔腾Pentium MMX1998年,奔腾二代Pentium II(0.25 m)、至强微处理器Xeon、赛扬Celeron 1999年春,英特尔公司Pentium III奔三 2000年,英特尔公司Pentium 4,奔四(0.18 m)2002年,英特尔超线程技术(HT,Hyper-Threading)2005年4月18日,英特尔全球同步首发奔腾D处理器.,微处理器的发展史:,7,第一代微处理器(4位):英特尔4004,8008 第二代微处理器(8位):采用NMOS工艺,采用汇编语言、BASIC、Fortran编程,使用单用户操作系统。如英特尔8080,8085。第三代微处理器(16位):以1978年英特尔的8086出现为起点。第四代微处理器(32位、64位):运算模式包括实模式、保护模式和“虚拟86”。英特尔80386 DX,80486,Pentium 4,微处理器的发展史:,8,4004:4位,8086:16位,8008:8位,80386:32位,位数:,缓存:,80386开始有高速缓存(cache).,Pentium II开始有二级缓存(L2).,多核:,奔腾D处理器.,关于处理器发展史的说明:,Itanium(安腾):64位,9,1 高速缓存(Cache)技术:,处理器发展史中的一些重要技术:,Cache是位于CPU与Mem之间的临时存储器,它的容量比Mem小但交换速度快。在Cache中的数据是Mem中的一小部分,但这一小部分是短时间内CPU即将访问的,当CPU调用大量数据时,就可避开Mem直接从Cache中调用,从而加快读取速度。,CPU速度快,Mem速度较慢,Cache技术可解决该矛盾。,10,流水线技术是一种将每条指令分解为多步,并让各步操作重叠,从而实现几条指令并行处理的技术。,程序中的指令仍是一条条顺序执行,但可以预先取若干条指令,并在当前指令尚未执行完时,提前启动后续指令的另一些操作步骤。,这样可以加快程序的运行。,2 流水线技术:,11,3 超线程(Hyper-Threading,HT)技术:,超线程技术就是利用特殊的硬件指令,把两个逻辑内核模拟成两个物理芯片,让单个处理器能使用线程级并行计算,进而兼容多线程操作系统和软件,减少了CPU的闲置时间,提高CPU的运行效率。,采用超线程技术能同时执行两个线程,是因为他们使用了芯片的不同部分,他们并不能象两个真正的CPU那样,每各CPU都具有独立的资源。,当两个线程都同时需要某一个资源时,其中一个要暂时停止,并让出资源,直到这些资源闲置后才能继续。因此超线程的性能并不等于两颗CPU的性能。,12,MMX(MultiMedia Extensions),多媒体扩展指令集.,SSE2SSE3SSE4,提高在多媒体和3D图形方面的处理能力,要使用这些新指令集,需使用专业编译器。,4 新指令集:,SSE(Streaming SIMD Extensions),第二套多媒体专用指令集,加速CPU的3D运算能力。,3D Now:3D加速指令集,加速CPU的浮点运算。,13,二、并行计算机,概念:由一组处理单元组成,这组处理单元通过相互之间的通信与协作,以更快的速度共同完成一项大规模的计算任务。,两个最主要的组成部分(发展的方向):,节点间的通信与协作机制,计算节点,14,出现背景:,60年代初期,晶体管以及磁芯存储器的出现,处理单元变得越来越小,存储器也更加小巧和廉价。出现规模不大的共享存储多处理器系统,即大型主机(Mainframe)。,60 年代末期,同一个处理器开始设置多个功能相同的功能单元,流水线技术也出现了,在处理器内部的应用大大提高了并行计算机系统的性能。,15,下面我们讨论如下两方面的内容:,1 并行计算机的弗林(Flynn)分类,2 并行计算机系统结构分类,16,1 并行计算机的弗林(Flynn)分类:,指令流(Instruction stream):,机器执行的指令序列.,数据流(Data stream):,指令调用的数据序列(输入数据和中间结果),从计算机的运行机制进行分类:,17,多指令流单数据流(Multiple Instruction stream Single Data stream,MISD),单指令流多数据流(Single Instruction stream Multiple Data stream,SIMD),单指令流单数据流(Single Instruction stream Single Data stream,SISD),多指令流多数据流(Multiple Instruction stream Multiple Data stream,MIMD),Flynn根据指令流和数据流的不同组织方式,把计算机系统的结构分为四类:,18,Flynn分类法:,19,SISD:传统串行计算机,20,SIMD 结构,一个控制部件,多个专门设计的处理单元,21,MIMD 结构(主流并行机结构),采用通用的CPU,通过互联网进行通信,22,MISD结构,实际中存在争议,有的学者认为没有这种结构的计算机,而有的文献则把流水线结构的计算机看成MISD结构。,23,2 并行计算机系统结构分类:,(1)分布式存储器的SIMD处理机,含有多个同样结构的处理单元(PE),通过寻径网络以一定方式互相连接。,每个PE有各自的本地存储器(LM)。,向量数据总线,控制单元,24,(2)向量超级计算机(共享式存储器SIMD),集中设置存储器,共享的多个并行存储器通过对准网络与各处理单元PE相连。,存储模块数目等于或者略大于处理单元的数目。为减少冲突应合理分布数据。,25,(3)对称多处理器(SMP),一个计算机上汇集了一组处理器,各处理器之间共享内存子系统以及总线结构。同时由多个处理器运行操作系统的单一副本,共享内存和其它的资源。,MIMD,26,(4)并行向量处理机(PVP),在并行向量处理机中有少量专门定制的向量处理器。每个向量处理器有很高的处理能力。并行向量处理机通过向量处理和多个向量处理器并行处理两条途径来提高处理能力。,VP,VP,VP,交叉开关网络,VP,VP,VP,27,(5)集群计算机,集群是一组独立的计算机(节点)的集合体,节点间通过高性能的互连网络连接;各节点除了可以作为一个单一的计算资源供交互式用户使用外,还可以协同工作并表现为一个单一的、集中的计算资源供并行计算任务使用。,集群是一种造价低廉,易于构筑,并且具有较好可扩展性的体系结构。,分布式 集中式,同构 异构,高性能机群(HP Cluster)高可用性机群(HA Cluster),分类:,28,并行计算机技术与超级计算机技术为多核计算机的出现奠定了基础,而集成电路技术的发展是多核芯片得以实现的物理条件。,29,三、系统芯片发展,处理器技术紧密地依托于集成电路技术的发展而发展,集成电路的迅猛发展引发了多核技术的出现。集成电路是采用半导体制作工艺,在一块较小的单晶硅片上制造许多晶体管及电阻器、电容器等元器件,并按多层布线或隧道布线的方法将元器件组合成完整的电子电路。,1、超大规模集成电路技术,30,集成电路比分立器件电路成本更低、更容易调试和应用、更加可靠、更容易更换。集成电路的出现使得一块芯片上可以集成更多的运算和存储单元,计算机的体积减小,成本降低。摩尔定律-集成电路的集成度每18个月翻一番。当前集成电路已进入特大规模(千万个以上的元器件)阶段,主流生产工艺达到90nm,65nm和45nm。摩尔定律不可能无限持续,若不能在设计原理、工艺技术和原材料方面有所突破,无法更大程度地缩小晶体管的尺寸。,1、超大规模集成电路技术,31,2、系统芯片,SoC:20世纪90年代中期,因使用ASIC(专用集成电路)实现芯片组受到启发,萌生应该将完整计算机所有不同的功能块一次直接集成于一颗硅片上的想法。这种芯片,初始起名叫System on a Chip(SoC),直译的中文名是“系统级芯片”,又称“片上系统”。,SoC,IP,SOPC,Tolapai,介绍4个概念:,32,随着设计与制造技术的发展,集成电路设计从晶体管的集成发展到逻辑门的集成,现在又发展到IP的集成,即SoC设计技术。,SoC可以有效地降低电子/信息系统产品的开发成本,缩短开发周期,提高产品的竞争力,是未来工业界将采用的最主要的产品开发方式。,33,(1)SoC应由可设计重用的IP核组成,IP核是具有复杂系统功能的能够独立出售的VLSI(超大规模集成电路)块;,(2)IP核应采用深亚微米以上工艺技术;,(3)SoC中有至少一个的MPU(微处理器)、MCU(微控制器)、DSP(数字信号处理器)或其复合的IP核。,这个定义虽然不是非常严格,但明确地表明了SoC的特征。,到底怎么准确定义SoC有着各种不同的说法,在经过了多年的争论后,专家们就SoC的定义达成了一致意见:,34,IP(Intellectual Property)核:一种预先设计好的甚至已经过验证的具有某种确定功能的集成电路、器件或部件。,IP核有3种不同形式:软核,硬核和固核。,软核:通常是用某种HDL文本提交用户,它已经过行为级设计优化和功能验证,但其中不含有任何具体的物理信息。,毛坯,硬核:具有和特定工艺相联系的物理版图,已有固定的拓扑布局和具体工艺,并已经过工艺验证,具有可保证的性能。,成品,固核:设计深度介于软核和硬内核之间,除了完成软核所有的设计外,还完成了门电路级综合和时序仿真等设计环节。,半成品,35,从灵活性和可重用性来看:,如果想付出少量劳动、又不在乎高价:,硬核最好,软核最差,软核最好,硬核最差,IP核的选择:,36,SOPC(System-on-a-Programmable-Chip)是SOC和PLD(可编程逻辑器件)的结合物。,SOPC(可编程的系统芯片):,SOPC技术是美国Altera公司于2000年最早提出的,并同时推出了相应的开发软件Quartus II。,SOPC是SoC和可编程逻辑技术的结合,与ASIC的SOC解决方案相比,SOPC系统及其开发技术具有更多的特色。例如,可裁减,可扩充,可升级,并具有一定的系统可编程功能。,Altera的Nios和NiosII核是目前最有代表性的软核嵌入式系统处理器之一。,37,“Tolapai”是英特尔针对企业级市场的SoC计划,也是企业级SOC产品家族的第一款产品。,Tolapai集成了北桥和南桥,其中北桥拥有单通道64-bitDDR2内存控制器、四通道DMA控制器、18条PCI-E通道(一个x2、两个x4、两个x1),南桥则支持两个USB、两个SATA、两个UART(通用异步串行收发接器)、37个GPIO(通用输入/输出)、Timer(定时器)、RTC(实时时钟)、WDT(看门狗定时器)等。,Tolapai:,在一枚英特尔架构处理器中集成了多种关键系统组件。,38,39,四、片上多核处理器构架,一直以来,处理器芯片厂商都通过不断地提高主频来提高处理器的性能。但随着芯片制造工艺的不断进步,从体系结构来看,传统的处理器体系结构已面临瓶颈,晶体管的集成度已超过上亿个,很难单纯地通过提高主频来提升性能,而主频的提高也带来功耗的提高。从应用需求来看,日益复杂的多媒体、科学计算、虚拟化等多个应用领域都呼唤更为强大的计算能力。,40,处理器结构,41,处理器结构,42,处理器结构,43,处理器结构,44,片上多核处理器(Chip Multi-Processor,CMP)就是将多个计算内核集成在一个处理器芯片中,从而提高计算能力。,按计算内核的对等与否,CMP可分为同构多核和异构多核:计算内核相同,地位对等的称为“同构多核”计算内核不同,地位不对等的称为“异构多核”,异构多核采用“主处理核协处理核”的设计。,45,CPU核心之间的数据如何共享与同步?,1 总线共享Cache结构:,每个CPU内核拥有共享的二级或三级Cache,用于保存比较常用的数据,并通过连接核心的总线进行通信。,2 基于片上互连的结构:,每个CPU核心具有独立的处理单元和Cache,各个CPU核心通过交叉开关或片上网络(NoC)等方式连接在一起,通过消息通信。,结构简单,速度快;扩展性差。,带宽有保证,可扩展性好;结构复杂。,46,处理器结构,47,Inter-Core Bus Interface,Pentium D with 975X Chipset,Memory ControllerHub,I/O Controller Hub,DDR2 Memory,PCI Express x16,6 PCI,4 Serial ATA Ports,6 PCI Express x1,High-Definition Audio,2 PCI Express x8,or,DMI(2 GB/s),1066/800 MHz FSB,Core 1L2 Cache(for Core 1),Core 0L2 Cache(for Core 0),6 USB 2.0,Intel Matrix Storage,BIOS Support,Intel Pro 1000 LAN,48,Cell架构,49,2007-02-11 核心面积275平方毫米主频3.16GHz电压0.95V数据带宽1.62Tb/s浮点运算能力1.01TFlops相当于1万颗10年前的Pentium Pro功耗不过62W比core 2 duo还低是四核心Xeon X5355 2.66GHz的大约一半采用了NoC(非对称接口),80核处理器:,50,51,五、芯片组对多核的支持,固件:嵌入到硬件设备中的软件烧写在flash等介质中可以被当作一个二进制映像文件由用户从硬件设备中调用在只读存储器中的计算机程序是可擦写可编程芯片程序可以通过专门的外部硬件进行修改不能被一般的应用程序改动,52,BIOS(Basic Input/Output System),功能:初始化和配置系统的硬件启动操作系统提供对系统设备底层的通讯,BIOS是系统硬件和操作系统之间的抽象层,连接CPU、芯片组和操作系统的固件。,正在被以EFI所取代!,53,可扩展固件接口EFI,Extensible Firmware Interface操作系统与平台固件之间的软件接口接口包括平台信息的数据表和启动时及启动后的服务,最早是Intel开发的,旨在取代BIOS,现在由UEFI组织来进行开发。,54,UEFI,55,在Framework中定义了两类处理器:BSP(boot strap processor)执行EFI的初始化代码,建立系统范围的数据结构,开始并初始化AP。AP(application processor)在系统上电或重启之后,AP会自己进行一个简单的设置,然后就等待BSP发出Startup信号。,EFI对多核支持:,Framework是一种固件的架构,它是EFI固件接口的一种实现。Tiano是EFI的一个具体实现,符合EFI规范接口实现的标准。,56,Framework在多核计算机中初始化过程如下:SEC:从实模式切换到保护模式,处理不同的重启事件、对每个处理器进行缓存设置。PEI:做尽量少的硬件初始化,而把更多的留给DXE。DXE:对所有可用的硬件设备进行初始化,为建立控制台和启动操作系统提供必要的服务。BDS:建立所需的控制台设备,在输出控制台上显示用户界面。,57,58,六、操作系统对多核处理器的支持,分配和调度:,多核处理器环境下操作系统的任务分配调度是目前研究的一个热点。,操作系统的一个重要工作就是分配和调度任务。,59,调度包括多个方面:,负载不均衡时是否迁移任务?,如何保证负载均衡?,如何调度实时任务和普通任务?,一个进程是否始终在一个核上运行?,是否采用一致的调度算法?,每个核如何调度它上面的任务?,新的任务分配给谁?,采用单独还是共同的就绪队列?,60,目前,还没有专门针对CMP体系结构的多核操作系统出现,缺乏成熟的CMP调度算法。,虽然Windows和Linux可以作为CMP多核体系结构的操作系统,但是他们对多核的支持不是对CMP的支持,而是对SMP的支持。,CMP处理器的各个CPU核心会共享一些部件,如二级Cache、I/O端口等,当它们同时竞争访问这些资源的时候,就会发生冲突。,与传统的SMP并行架构相比较,CMP架构最大的特点在于片上的多个处理器核之间是紧密的耦合关系。,迁移任务的代价。,61,几个具有代表性的多核调度算法:,1 对任务的分配进行优化。使同一应用程序的任务尽量在一个核上执行,提高缓存命中率。,2 对任务的共享数据优化。由于CMP体系结构共享二级缓存,可以考虑改变任务在内存中的数据分布,使任务在执行时尽量增加二级缓存的命中率。,3 对任务的负载均衡优化。当任务在调度时,出现了负载不均衡,考虑将较忙处理器中与其他任务最不相关的任务迁移,以达到数据的冲突量小。,62,中断和IO系统:,高级编程中断控制器 APIC,IPI:中断消息,63,典型支持多核的操作系统:,Windows NT之后的Windows系列操作系统,其中可以支持SMP的都可以支持多核。,Windows系列:,Linux:,SMP版本的Linux内核能够很好地支持多核,Linux 2.0内核以后的操作系统都支持SMP。,64,如果要将多核构架处理器的潜能完全发挥出来,需要开发一个新的操作系统和一批相应的工具,而目前这样的操作系统和工具是没有的,需要操作系统厂家努力研发。,目前发挥多核潜能的最好方法就是多线程编程。,