书签分享收藏举报版权申诉 / 89

立即下载加入VIP免费专享

当前位置：首页 > 生活休闲 > 在线阅读 > 高性能集群性能评测课件.pptx

高性能集群性能评测课件.pptx

上传人：牧羊曲112

文档编号：1802079

上传时间：2022-12-19

格式：PPTX

页数：89

大小：1.28MB

《高性能集群性能评测课件.pptx》由会员分享，可在线阅读，更多相关《高性能集群性能评测课件.pptx（89页珍藏版）》请在三一办公上搜索。

1、高性能集群性能评价,曙光信息产业股份有限公司解决方案中心,1高性能集群性能评价概述2集群性能评价2.1计算性能测试linpack2.2 NPB（NASA Parallel Benchmarks）测试2.3 SPEC测试套件2.64可靠性测试HPCC包3集群网络性能评价4IO性能测试5内存带宽性能测试6其它测试,1高性能集群性能评价概述,高性能计算架构变化,数据来源：2010 TOP 500 排行榜,高性能计算网络发展,数据来源：2010 TOP 500 排行榜,高性能集群操作系统份额,数据来源：2010 TOP 500 排行榜,千兆交换机,局域网,Internet,路由器,防火墙,远程控制,内

2、网,外网,以太网交换机,控制台,本地KVM,以太网,光纤网,Infiniband网,KVM管理网,登陆/管理节点,机房环境,并行存储系统,高速Inifiniband交换机,刀片集群,GPGPU节点,计算系统,存储系统,SMP胖节点,2,算例上传作业提交,10110001101010010001001001001001100011010100100010010011000110101001000100100110001101010010001001000010010011000110101000010010011000110101000010010011000110101000010010011

3、0001101010,高性能计算作业的工作流程,高性能计算机系统架构,高性能计算机中的关键技术,高性能集群三要素,无密码访问配通,统一的系统印象,统一的文件印象,对于普通用户来说，所有节点看到的某一个文件都是相同的文件。通过nfs或者并行文件系统实现。,通过NIS或同步用户信息来实现。,网络全通 rsh或ssh无密码访问配通,CAE（CFD）,石油勘探,气象环境海洋,图像渲染,物质的物理化学材料属性的科研工作中,基因科学、蛋白质科学的研究以及新药的研发,地震资料处理，用于油气勘探,气象环境海洋的数值预报,动画、电影、图像的高逼真效果制作,物理化学材料,生命科学,六大应用领域,高性能计算在国内的

4、六大应用领域,计算机辅助工程，广泛应用于工业生产中,其它：卫星图像处理、金融计算等,物理化学材料：计算物理材料：vasp，cpmd，Material Studio。计算化学：gaussian、gamess，ADF。CAE领域：结构计算：ansys、abaques,nastran 流体计算：fluent，CFX 电磁仿真：Fecko生命科学：生物信息学：MPIBLAST，BWA等分子动力学：Namd，gromacs，lammps。药物设计：dock，autodock，DiscoveryStudio。,主流高性能应用介绍,气象海洋环境科学气象预报：WRF，MM5，Graphes海洋科学

5、：roms石油勘探Omega，cgg等动漫渲染3dmax，Maya等,主流高性能应用介绍,高性能应用典型特征,高性能应用软件的编程模型,衡量高性能系统性能的评价指标 -理论峰值（FLOPS）,FLOPS（浮点运算每秒）1、如何计算理论峰值：峰值主频(GHz)*总核心数*4 (4代表每个时钟周期做4次浮点运算) 例如：10个AMD双路12核刀片（CPU6174，主频2.2）总核心数10212240 峰值2.224042112GFLOPS2.1TFLOPS=2.1万亿次。 GPU峰值：每C2050卡双精度峰值0.515TFLOPS 单精度峰值1.03TFOPS 双精度峰值0.515* GP

6、GPU卡数目（TFLOPS）单精度峰值1.03* GPGPU卡数目（TFLOPS）,衡量高性能系统性能的评价指标 -实测峰值（FLOPS）,HPL(Linpach)测试 -对系统进行整体计算能力的评价Linapck测试：采用主元高斯消去法求解双精度稠密线性代数方程组，结果按每秒浮点运算次数（flops）表示。HPL：针对大规模并行计算系统的测试，其名称为High Performance Linpack (HPL)，是第一个标准的公开版本并行Linpack测试软件包。用于TOP500与国内TOP100排名依据。使用者可以改变问题规模。有相当大的优化空间。,衡量高性能系统性能的评价指标 -系统

7、效率,系统效率=实测峰值/理论峰值如何提高效率：（1）通过优化网络（2）通过优化测试程序的编译与设置（3）通过优化内存的配置与容量（4）通过优化运行参数及系统参数！目前:一套通过Infiniband网络互连的集群，效率一般在70%以上。,加速比定律,在并行计算系统，并行算法（并行程序）的执行速度相对于串行算法（串行程序）加快的倍数，就是该并行算法（并行程序）的加速比；加速比是衡量“并行收益”的重要指标；Amdahl定律适用于固定计算规模的加速比性能描述，Gustafson定律适用于可扩展问题。,Amdahl定律,S = (WS+WP)/(WS+WP/p) = 1/(1/p+f(1-

8、1/p)显然，当p时，S=1/f，即对于固定规模的问题，并行系统所能达到的加速上限为1/f一度引发了并行界部分人士的悲观情绪,Gustafson定律,S=（WS+pwp）/（WS+WP） =p-f（p-1）=f+p（1-f）并行计算是为了解决大规模并行问题，可并行部分的比例是可扩大的加速比与处理器数成斜率为（1-f）的线性关系这样串行比例f就不再是程序扩展性的瓶颈，当然，f越低，斜率会越大，加速性能越好。,高性能集群性能评测的目的,高性能集群综合性能测评,综合性能测评指标,HPL(Linpach)测试 -对系统进行整体计算能力的评价Linapck测试：采用主元高斯消去法求解双精度稠密线性代数方

9、程组，结果按每秒浮点运算次数（flops）表示。HPL：针对大规模并行计算系统的测试，其名称为High Performance Linpack (HPL)，是第一个标准的公开版本并行Linpack测试软件包，用于TOP500与国内TOP100排名依据。使用者可以改变问题规模。有相当大的优化空间。,Linpack测试,1 依赖环境：编译安装标准MPI程序，openmpi、intelmpi、mvapich2或mpich2均可编译安装优化的blas库，一般建议对于Intel平台，使用MKL，对于AMD平台，使用Gotoblas。 2 下载hpl-2.0.tar.gz源码包。 3 编译linpa

10、ck程序。 a) tar -zxf hpl-2.0.tar.gz b) cd hpl-2.0c) cp setup/Make.Linux_ATHLON_FBLASMake.gcc_openmpi (gcc_openmpi只是一个名字，可以随便取),基于CPU的Linpack测试步骤,d) 编辑Make.gcc_openmpi修改第64行为ARCH = gcc_openmpi (和Make.icc_openmpi保持一致)修改第70行为TOPdir = /public/sourcecode/hpl-2.0 （此处目录为hpl-2.0所在的目录，根据具体情况修改）修改第84行为MPdir = （或

11、者注释此行）修改第85行为MPinc = （或者注释此行）修改第86行为MPlib = （或者注释此行）修改第95行为LAdir = （或者注释此行）如果blas选用MKL库，可以参考http:/,基于CPU的Linpack测试步骤,修改第97行为LAlib = -Wl,-start-group $(MKLROOT)/lib/intel64/libmkl_intel_lp64.a $(MKLROOT)/lib/intel64/libmkl_sequential.a $(MKLROOT)/lib/intel64/libmkl_core.a -Wl,-end-group -lpthread如果选用

12、gotoblas库修改第97行为LAlib = /public/software/mathlib/goto2/libgoto2.a修改第169行为CC = mpicc（如果选用intelmpi,此处需要更改为mpiicc）,基于CPU的Linpack测试步骤,intel编译器修改第171行为CCFLAGS = -O3 -xHost -ip -funroll-loops gnu 编译器修改第171行为CCFLAGS = -pipe -O3 -fomit-frame-pointer -march=native -funroll-loops -ffast-mathpgi编译器修改第171行为CCFL

13、AGS = -Bstatic -V -fastsse -Munroll=n:4 -Mipa=fast,inline修改第174行为LINKER = mpicc，intelmpi修改为mpiicce) 载入环境变量，确认自己使用的编译器环境以及MPIsource /public/software/mpi/openmpi-1.4.3-gnu.shf) make arch=gcc_openmpig) cd bin/gcc_openmpi此目录中的xhpl为编译成功的可执行程序,HPL.dat为数据文件,基于CPU的Linpack测试步骤,修改HPL.dat，一般需要修改3处1.问题规模的组数及大小，

14、一般为1组：1 # of problems sizes (N)40000 Ns占用内存=N*N*8字节，一般占用所有测试节点物理内存总和的75%左右性能较优比如N=40000，占用物理内存=40000*40000*8 Byte=12800000000 Byte=11.92GB2.NB值，即矩阵分块大小，这个是经验值，一般设置为128、192、232 2 # of NBs 128 192 NBs这里表示运行2组，NB值分别为128和192,运行linpack,3、P和Q的设置（进程数目的设置），P和Q设置一般为1组1 # of process grids (P x Q)4 Ps4 Qs要求： P

15、Q进程数P=Q，P和Q尽量接近性能较好，如12进程，P=3/Q=4，若36进程，P=Q=6,运行linpack,HPL.dat 中其它值得修改1 # of panel fact0 1 2 PFACTs (0=left, 1=Crout, 2=Right)1 # of recursive stopping criterium4 2 8 NBMINs (= 1)1 # of panels in recursion2 NDIVs1 # of recursive panel fact.0 1 RFACTs (0=left, 1=Crout, 2=Right)这些值对最终的结果影响较小，但是也有少量的影

16、响，但是这些结果对测试的时间（数据组）有较大的影响。,运行linpack,载入环境变量，确认你要用的mpisource /public/software/mpi/openmpi1.4.3-gnu.sh考虑到可能测试时间比较长，使用nohup 到后台运行mpirun -np 16 -machinefile ma ./xhpl &out.log &ma的格式为：node1 slots=8node2 slots=8详细运行方法参见4.3，运行OpenMPI程序。测试结果在out.log 里查看,运行HPL,版本:1.4.3tar zxvf openmpi-1.4.3.tar.gz cd openmp

17、i-1.4.3/ ./configure -prefix=/public/software/mpi/openmpi1.4.3-gnu -without-psm -enable-mpirun-prefix-by-defaultmake -j 8make installmake distclean添加环境变量脚本vim /public/software/mpi/openmpi1.4.3-gnu.shMPI_HOME=/public/software/mpi/openmpi1.4.3-gnuexport PATH=$MPI_HOME/bin:$PATHexport LD_LIBRARY_PATH=$

18、MPI_HOME/lib:$LD_LIBRARY_PATHexport MANPATH=$MPI_HOME/share/man:$MANPATH,附录：如何编译openmpi,版本:1.13GotoBLAS2为优化的BLAS数学库，在版本2以后，可以将LAPACK库也集成其中，编译好的Gotoblas2包含了BLAS和LAPACK数学库，在LINPACK和常用物理化学软件中使用tar xvzf GotoBLAS2-1.13.tar.gz cp lapack-3.1.1.tgz GotoBLAS2/cd GotoBLAS2修改Makefile.rule文件：第17行， CC = gcc 20行

19、FC = ifort 27行 BINARY=64 34行 USE_THREAD = 0makemkdir -p /public/software/mathlib/goto2cp libgoto2*.a /public/software/mathlib/goto2/,附录:如何编译gotoblas库,安装基本需求：1）Nvidia CUDA环境搭建Nvidia CUDA运行环境，需要安装以下两个包：Nvidia GPU驱动；CUDA开发工具包cudaToolkit。可通过下载安装。2）编译器系统必须安装了支持C语言和Fortran编译器。推荐采用在Intel编译器11.0版本及以上。3）并行

20、环境并行环境是指MPI。可采用Openmpi，Intelmpi，mvapich等，推荐使用openmpi，编译时采用intel编译器编译。4）BLAS库 BLAS库及基本线性代数库，采用BLAS库的性能对最终测得的Linpack性能有密切的关系。目前Nvidia GPU Linpack支持Intel MKL，其中MKL可采用intel 编译器中自带的MKL。,基于GPU的Linpack测试,编译cuda HPLCUDA版本的HPL可在dawning服务器下载。相比较于CPU版本HPL，CUDA HPL主要是把HPL程序中主dgemm(double-precision generic mat

21、rix-matrix muliplication)划分为两部分，分别交给CPU、GPU协同完成，这样就可以把整个计算系统的计算能力充分利用起来。在cuda HPl编译时主要修改两个Makefile文件：修改 Make.CUDA_pinned文件修改 $hpl/src/cuda/Makefile,基于GPU的Linpack测试,在CUDA HPL文件夹中，提供了Makefile模板“Make.CUDA_pinned”,通过修改Make.CUDA_pinned文件可以指定linpack所使用编译器、库函数、编译选项等。主要修改的变量有：ARCH：必须与文件名Make.中的一致TOPDIR：当前所在

22、的路径MPdir：指明MPI所在目录MPinc：指明MPI头文件目录MPlib：指明MPI库文件目录LAdir：BLAS库所在的目录LAinc、LAlib：BLAS库头文件、库文件CUDAinc：CUDA头文件目录CUDAlib：CUDA库文件目录CC：C语言编译器CCFLAGS：C编译选项,基于GPU的Linpack测试,2）修改 $hpl/src/cuda/Makefile此文件中主要修改MPInc 指定mpi头文件目录MPICC 指定mpicc目录如下表所示：MPInc = /public/software/ompi142-intel/includeMPICC =/public/sof

23、tware/ompi142-intel/bin/mpicc,基于GPU的Linpack测试,编译在CUDA hpl目录下执行 make arch=CUDA_pinned编译后在$cuda_hpl目录/ bin/CUDA_pinned 下生成可执行文件xhpl,编译,修改HPL.dat 与基于CPU的linpack修改方法相同，主要修改N值（问题规模）、NB值（分块大小）、P和Q的值等。,基于GPU的Linpack测试-运行,在cuda linpack程序中每个GPU device对应一个CPU进程，所以在每个节点的进程数应该与GPU device相等，为了充分利用计算节点的计算能力，可以在每个

24、CPU进程设置多个线程。在$cuda_hpl目录下修改run脚本，指定每个节点执行的进程数；在run_linpack中修改每个进程所包含的线程数。/public/software/ompi142-intel/bin/mpirun -mca btl tcp,self,sm -np 2 -machinefile ./run_linpack #进程数目,基于GPU的Linpack测试-运行,说明：基于GPU的linpack程序为一个杂化程序。整个测试过程中为了完全的利用CPU的GPU资源，降MPI程序设计，多线程程序设计、及GPU程序设计三种编程方式融合在一起。每个GPU需要一个进程进行启动，为了利

25、用CPU多核优势，一个进程起多个线程。以一台曙光W580I，使用4个GPU卡为例，系统配置2颗Intel 5650 6核处理器，共12核心。对于此系统，需要启动4个MPI进程，每个进程对应一个GPU device，由于系统共12核心，故每进程启动3个OMP线程。,基于GPU的Linpack测试-运行,修改 Run_linpack#!/bin/bashHPL_DIR=/public/dawn/hpl-2.0_FERMI_v11# Number of CPU cores ( per GPU used = per MPI processes )CPU_CORES_PER_GPU=3export HP

26、L_MAX_PERF=2136.8# FOR MKLexport MKL_NUM_THREADS=$CPU_CORES_PER_GPU# FOR GOTOexport GOTO_NUM_THREADS=$CPU_CORES_PER_GPU# FOR OMPexport OMP_NUM_THREADS=$CPU_CORES_PER_GPUexport MKL_DYNAMIC=FALSE,基于GPU的Linpack测试-运行,# hint: try 350/(350 + MKL_NUM_THREADS*4*cpu frequency in GHz)export CUDA_DGEMM_SPLIT=0

27、.973# hint: try CUDA_DGEMM_SPLIT - 0.10export CUDA_DTRSM_SPLIT=0.873export LD_LIBRARY_PATH=$HPL_DIR/src/cuda:/usr/local/cuda/lib64:/public/soft/intel/Compiler/11.1/073/mkl/lib/em64t:$LD_LIBRARY_PATH$HPL_DIR/bin/CUDA_pinned/xhpl,基于GPU的Linpack测试-运行,如何计算Linpack效率,1、如何计算理论峰值：峰值主频(GHz)*总核心数*4 (4代表每个时钟周期

28、做4次浮点运算) 例如：10个AMD双路12核刀片（CPU6174，主频2.2）总核心数10212240 峰值2.224042112GFLOPS2.1TFLOPS=2.1万亿次。 GPU峰值：每C2050卡双精度峰值0.515TFLOPS 单精度峰值1.03TFOPS 双精度峰值0.515* GPGPU卡数目（TFLOPS）单精度峰值1.03* GPGPU卡数目（TFLOPS）,2如何获得实测峰值直接从Linpack 的输出结果获得Xxxx d03 Gflops3 如何获得效率系统效率=实测峰值/理论峰值想要获得高的系统效率，Infiniband网络是必须的。目前CPU系统的效率一般在

29、80%以上。GPU系统根据卡得数量，一般在30%-60%之间。,如何计算Linpack效率,综合性能测评指标,1 Linpack简单、直观、能发挥系统的整个计算能力，能够较为简单的、有效的评价一个高性能计算机系统的整体计算能力。所以linpack仍然是高性能计算系统评价的最为广泛的使用指标。2 但是高性能计算系统的计算类型丰富多样，仅仅通过衡量一个系统的求解稠密线性方程组的能力来衡量一个高性能系统的能力，显然是不客观的。3 如何寻求一个更为全面的指标，能涵盖主流的高性能应用，从而更全面，更客观的评价一个系统的能力？,Linpack测试的问题,NPB套件由八个程序组成、以每秒百万次运算为单位输出

30、结果。整数排序(IS)快速Fourier变换（FT）多栅格基准测试（MG）共轭梯度(CG) 基准测试稀疏矩阵分解（LU）五对角方程（SP）和块状三角(BT)求解密集并行(EP)每个基准测试有五类：A、B、C、D、W (工作站)，S（sample）。A最小，D最大,NAS Parallel Benchmark（BPB）,版本：目前NPB版本为2.4和3.3 两个版本，NPB3除了能进行MPI程序的测试外，还可以支持串行的测试和OPENMP的测试。下载NPB源码包：NPB3.3.tar.gztar xvzf NPB3.3.tar.gzcd NPB3.3/NPB3.3-MPI,NPB测试程序

31、编译,cp config/suite.def.template config/suite.def修改config/suite.def修改测试程序、测试类别、测试的进程数ft S 1mg S 1sp S 1lu S 1bt S 1is S 1ep S 1cg S 1,NPB测试程序,cp config/make.def.template config/make.def修改config/make.defMPIF77 =mpif90FMPI_LIB =FMPI_INC = MPICC = mpicc CMPI_LIB= CMPI_INC = 执行编译命令make suite查看 bin 路径下面有若

32、干可执行程序。运行NPB测试Mpirun -np 16 machinefile ma bin/cg.S.16,NPB测试程序,综合性能测评指标,(Standard Performance Evaluation Corporation，系统性能评估测试)测试系统总体性能的Benchmark。在英文中表示“规格”。 (Standard Performance Evaluation Corporation标准性能评估机构)是一个全球性的、权威的第三方应用性能测试组织，它旨在确立、修改以及认定一系列服务器应用性能评估的标准。该组织成立于1988年，是由斯坦福大学、清华大学、微软、等全球几十所知名大

33、学、研究机构、IT企业组成的第三方测试组织。SPEC经过多年的发展积累，该测试标准得到了全球众多用户的广泛认可。具体参看www.spec.org,SPEC 测试概述,CPU Graphics/WorkstationsMPI/OMPJava Client/ServerMail ServersNetwork File SystemPowerSIP (Session Initiation Protocol)SOA（Service Oriented Architecture ）VirtualizationWeb Servers,SPEC 测试benchmark种类,用于衡量服务器的CPU计算能力。目前

34、的版本为Spec CPU 2006，在这之前还发布了SPEC CPUv6、SPEC CPU2000 、SPEC CPU95 、SPEC CPU92 Spec CPU的benchmark分为CINT2006、CINT2006 Rates和CFP2006、CFP2006 Rates。CINT2006衡量处理器单个核心运行串行程序的整形计算能力， CINT2006 Rates 衡量整个节点运行与核心数相等数量组的串行程序的整形计算能力。 CFP2006衡量处理器单个核心运行串行程序的浮点计算能力， CFP2006 Rates 衡量整个节点运行与核心数相等数量组的串行程序的浮点计算能力。,Spec C

35、PU测试,CINt2006 rates的测试结果,CFP2006 rates 结果的查看,1 spec测试的benchmark非常多，能够涉及到服务器相关的各类应用。2 与高性能计算相关的测试有CPU、MPI/OMP,等，其中spec CPU的评测结果较为权威，被各个厂商业界广泛承认。3 尤其SPEC CFP2006 rates 的测试，较为全面的评价了一台服务器进行浮点运算的能力，同时，除了生物信息学的应用外，大部分高性能计算的应用均为浮点计算，所以他的测试结果与众多应用的测试结果较为吻合。4 Spec CFP共设计17种浮点计算应用，其中涉及C，C+，Fortran，很多应用均为目前业界广

36、泛使用的主流高性能应用，所以的确较为全面的客观的反映了单台服务器的计算能力。,Spec 测试特点,综合性能测评指标,HPCC（HPC Challenge） benchmark与NPB测试类似，目的仍然为了寻找一个更为全面的评价整个系统性能的测试工具。HPCC benchmark 包含如下7个测试HPL - the Linpack TPP benchmark which measures the floating point rate of execution for solving a linear system of equations. DGEMM - measures the float

37、ing point rate of execution of double precision real matrix-matrix multiplication. STREAM - a simple synthetic benchmark program that measures sustainable memory bandwidth (in GB/s) and the corresponding computation rate for simple vector kernel.,HPCC 测试,PTRANS (parallel matrix transpose) - exercise

38、s the communications where pairs of processors communicate with each other simultaneously. It is a useful test of the total communications capacity of the network. RandomAccess - measures the rate of integer random updates of memory (GUPS). FFT - measures the floating point rate of execution of doub

39、le precision complex one-dimensional Discrete Fourier Transform (DFT). Communication bandwidth and latency - a set of tests to measure latency and bandwidth of a number of simultaneous communication patterns; based on b_eff (effective bandwidth benchmark).,HPCC benchmark,高性能集群网络性能评价,IMB（Intel MPI Be

40、nchmark）用来测试各种MPI函数的执行性能。编译IMBa） tar zxf tar zxf IMB_3.2.2.tgzb) cd imb/srcc) cp make_ictmake_openmpid) 编辑make_openmpi修改第3行 CC = mpicce) make -f make_openmpi,IMB测试,IMP 测试benchmark,PingPong测试,PingPing 测试,Sendrecv 测试,Exchange 测试,mpirun np 8 hostfile ma IMB-MPI1 options IMB-MPI1 -help-npmin -multi -off

41、_cache -iter-time -mem -msglen -map -input benchmark1 ,benchmark2 ,.(where the 11 major may appear in any order).- Examples:mpirun -np 8 IMB-IOmpirun np 10 IMB-MPI1 PingPing Reduce,IMB运行,IMB 能够全面的获取整个系统各个MPI函数的性能，但是当一个节点数目众多大系统，如何能够快速的获得任意2点的互联通信性能，从而能够快速排除整个系统的网络故障，需要通过MPIgraph来实现,MPIGraph,a) tarzx

42、f mpigraph-1.4.tgzb) cd mpigraph-1.4c) 载入环境变量 source /public/software/mpi/openmpi-1.4.3-intel.shd) make,编译MPIgraph,mpirun -np4 -hostfile ma mpiGraph/mpiGraphMPIgraph的测试中一般一个节点仅仅启动一个进程。MPI graph的输出结果。 MPI会遍历出系统中任意2个节点的MPI 通讯带宽，从而能够使得管理人员快速定位系统故障。,运行MPI-graph,IMB与MPIgraph均为通过MPI的通讯函数来网络的互联性能和MPI程序的消息传

43、递性能进行评测，iperf则为专门测量TCP/IP协议的测试网络测试工具。Iperf的编译tar xvzf iperf-2.0.5tar.gzcd iperf-2.0.5./configure -prefix=/public/software/iperfmakemake install /public/software/iperf/bin/iperf 为编译好的可执行程序,Iperf 测试,在server节点上运行/public/software/iperf/bin/iperf s在client节点上运行/public/software/iperf/bin/iperf -c serverIPI

44、perf输出结果Client connecting to node210, TCP port 5001TCP window size: 64.0 KByte (default)- 3 local 10.10.10.40 port 57558 connected with 10.10.10.210 port 5001 ID Interval Transfer Bandwidth 3 0.0-10.0 sec 1.12 GBytes 958 Mbits/sec,Iperf 运行,高性能集群IO性能评价,IOZONE为Linux操作系统下使用最为广泛的IO测试工具Iozone的编译a) tar xf

45、 iozone3_397.tarb) cd iozone3_397c) cd src/currentd) make Linux-AMD64 (目前测试平台为linux 64bit)e) cp iozone ././; cd ./.,IOZONE性能评价工具,单个客户端运行IOZONE因为如果想要测试存储设备的IO性能，需要尽可能的将IO的负载加满，所以单个节点测试的时候最好启动的进程数与单节点的CPU核心数相同。执行命令 iozone -s 4g -r 1m -I -i 0 -i 1 -i 2 -i 5 -t 12 f /tmp-s 测试用的文件大小，, k,m,g分别代表Kb,Mb,Gb，这

46、里-s标示的为一个进程测试的文件大小，一般保证总的测试的文件大小（单个进程文件大小*进程数）大于内存的2倍-r 测试文件文件传输的块大小, k,m,g分别代表Kb,Mb,Gb-I 指定写文件的时候不写入内存中，规避内存的影响！-i 运行哪些测试 0=write/rewrite, 1=read/re-read, 2=random-read/write 3=Read-backwards, 4=Re-write-record, 5=stride-read, 6=fwrite/re-fwrite,IOZONE的运行,7=fread/Re-fread, 8=random_mix, 9=pwrite/Re

47、-pwrite, 10=pread/Re-pread 11=pwritev/Re-pwritev, 12=preadv/Re-preadv-t 用来测试的线程数-f 指定测试文件的目标路径,IOZONE 的运行,多个客户端运行IOZONE对于并行文件系统或共享文件系统，往往需要多个客户端共同对共享存储系统增加负载，从而测试整个文件系统的性能执行命令 iozone -s 2g -r 1m -I -i 0 -i 1 -i 2 -i 5 -t 120 -+m /home/test/ma/home/test/ma 为节点文件，文件格式如下：node1 /home/test/tmp /home/test

48、/iozonenode1 /home/test/tmp /home/test/iozonenode2 /home/test/tmp /home/test/iozonenode2 /home/test/tmp /home/test/iozonenode3 /home/test/tmp /home/test/iozonenode3 /home/test/tmp /home/test/iozone 。,IOZONE的运行,高性能集群内存带宽性能评价,SREAM为业界公认的内存带宽测试程序编译STREAM程序下载stream.zip 源码包mkdir stream unzip -d stream st

49、ream.zipgcc -fopenmp -D_OPENMP -O2 stream.c -o stream运行STREAM程序export OMP_NUM_THREADS=12./stream,STREAM 测试程序,内存带宽理论值：Intel 1333MHz*64(总线带宽)*3（通道数）*2（物理CPU数）=63.98GBamd 1333MHz*64(总线带宽)*4（通道数）*2（物理CPU数）=682496Mb=85.3GB内存带宽是测试值intel 5650(12线程) 29.3GB =45.7% 1线程 9.13GBAMD 6136（16线程） 49.0GB =57.4% 1线程 5

50、.18GB,内存带宽技术指标,其它测试,Lmbench 的使用与介绍Lmbench 是一套简易可移植的，符合ANSI/C 标准为UNIX/POSIX 而制定的微型测评工具。一般来说，它衡量两个关键特征：反应时间和带宽。Lmbench 旨在使系统开发者深入了解关键操作的基础成本。Lmbench 主要功能,LMBench测试,下载lmbench3.tar.tartar xvzf lmbench3.tar.tarcd lmbench3/srclmbench3有个bug，需要修改lmbench3的Makefile在231 行的样子)，将$O/lmbench : ./scripts/lmbench bk