这里有一篇文章。
转自 http://pc.zol.com.cn/2003/0924/71829.shtml
高性能计算机的评价（上）
类型：转载作者：IBM 互联网服务器部么石磊日期：2003-09-24 14:26:49

--------------------------------------------------------------------------------

上世纪90年代以来，以高性能计算机为基础的计算科学得到了长足的发展，它与理论科学和实验科学相辅相成、彼此印证，成为人类科学研究必不可少的方法之一。在许多工业领域，如汽车、航空航天器的设计制造，石油勘探、地震资料处理及国防（核爆炸模拟）等，科学计算已经成为首选研究方法。在教育、科研领域，高性能计算有着更广泛的施展空间，在生命科学、材料设计、气象气候研究等学科中已成为科学研究的必备工具。与国际高性能计算机的使用相比，中国的高性能计算的工业应用程度不高，其中以石油勘探/地震资料处理最为成功（但现在越来越多的ISV支持PC Cluster，使高端市场受到很大冲击）。目前中国的高性能计算市场更多地集中在教育（高校）和科研（中科院、气象单位等）领域。同时，不可忽视的是网格计算的市场。据中科院专家介绍，我国从2003年开始的3～5年中，将在全国范围内建立教育网格和国家网格两大网格系统。教育网格俗称“百校网格”，就是在全国范围内选择100所重点高等院校建立网格节点，用CERnet连接起来，实现网格计算。每个教育网格节点（即高校）都会有购买高性能计算机的需求。与此同时，国家网格也在筹划建设中。其中一个方案是按地区划分，在全国建立8个大节点（计算中心），然后向周边地区辐射。目前，北京（华北）和上海（华东）两个大节点已经在筹划建设中。另一种方案是按省份划分，那样就有30多个网格节点。

随着对高性能计算需求的增加，面对众多的高性能计算机产品，如何选择适合自己的计算机系统成为用户面对的重要问题。本文将从几个方面对科学计算领域中高性能计算机的评价进行初步的探讨。

一、  CPU、主频、峰值速度及TOP500排名

CPU作为计算机的核心部件一直被给予最大的关注。现在标量处理器通常可分为三类：复杂指令集CISC（代表为Intel Pentium, Xeon），精简指令集RISC(代表为IBM Power, HP PA-RISC, Compaq Alpha, SUN Ultra-SPARC, SGI MIPS)及显式并行指令集EPIC(代表为Intel IA-64)。CISC为程序员提供了丰富的指令集（200条以上），所以对编译器的设计要求不高，可以用较为简单的编译器系统去生成CISC执行程序。但是复杂的指令系统存在芯片设计复杂、功能部件少，耗电量大等缺点。根据对大量实际应用程序的统计，常用的指令就只有十几条，这也是RISC芯片的设计基础。RISC芯片中通常集成了较多的功能部件，利用强大的编译系统使多个功能部件并行执行，并采用流水线(pipeline)、指令乱序(out-order)等设计使CPU的性能得以充分发挥。目前RISC芯片是高性能计算机的主流芯片，其中以IBM的Power处理器最为成功，并有长期、持续的发展计划。而其他厂商（如HP和SGI）正逐渐放弃对RISC芯片的发展，转向EPIC类型的Intel Itanium产品。与RISC芯片相似，EPIC芯片结构的设计目标也是指令的并行化，以获得最优的性能。但是与RISC芯片不同，EPIC芯片由编译器去决定如何将指令并行化，以何种方式、何种顺序执行指令，然后交给硬件去执行。而RISC系统则直接将指令交给硬件，由硬件去决定如何做并行、如何做Pipeline。所以两种指令系统存在本质的差别，我们不能期望一个具体的应用程序不经过优化、再编译就能在两种系统上获得同样高的性能。所以HP要将PA-RISC和Alpha上的应用移植到Intel Itanium2上，并获得同样高的性能将是一项非常艰巨的任务。同时，与RISC相比较，EPIC性能的发挥更依赖于编译器的设计，而Intel一直以CISC芯片为主要产品（如前所述，CISC芯片对编译器的要求最低），在编译器的开发上经验不足。虽然与HP进行合作开发，但其编译器的表现仍有很大的提升空间。有经验表明，当同样的应用程序分别在HP-UX，Linux系统下编译，同样运行在Itanium2的系统上时，在HP-UX下的性能要优于Linux的性能。当对同样采用Intel Itanium2的HP rx5670和SGI的Altix进行比较时，HP产品的性能也会好于SGI的产品，这也应归功于编译器的表现。

经常与CPU同时被提及的就是它的主频。很长时间以来，主频以其直观的数据特点成为计算机用户判断CPU性能的指标。但主频只有在同种类型的CPU中比较才具备一定的参考价值。

总的来讲，单纯从CPU的角度选择系统要考虑以下几点：

1.  该CPU是否有长远、持续的发展计划；

2.  该CPU在同类处理器中的地位如何；

3.  编译系统及相应的开发环境；

4.  用户的具体应用是针对哪种类型的指令系统上开发的，因为只有该指令系统才能充分发挥处理器的性能；

5.  如果要将应用运行在新的CPU上，程序移植的工作量如何，是否有ISV愿意或已经做了相应的移植工作。

另外一个经常被用来评价计算机性能的简单指标是峰值速度。计算机的峰值速度通常是指其理论峰值速度，其计算公式是：

理论峰值速度（亿次）= MHz x 每个时钟周期执行浮点运算的次数 x CPU数目/108

其中MHz是指CPU的主频，每个时钟周期执行浮点运算的次数是由处理器中浮点运算单元的个数及每个浮点运算单元在每个时钟周期能处理几条浮点运算来决定的。以IBM POWER4为例，每个POWER4的处理器有两个浮点运算单元，每个浮点运算单元在一个时钟周期内可以同时处理一个加法和一个乘法的操作。所以如果处理器的主频为1.7GHz（POWER4+），那么该处理器的峰值速度为1.7G＊2＊2=6.8Gflop/s，或68亿次/秒。对于满配置的IBM p690来说，该系统的峰值速度就是1.7G＊2＊2＊32=217.6Gflops，或2176亿次/秒。不同的处理器每个时钟周期能执行浮点运算的次数不同。在市场中常见处理器的情况如下：

峰值速度在一定程度上能够反映处理器的性能，但并不能代表计算机的实际运算能力。为此许多组织试图用一些标准的程序来测试计算机的运算速度，其中LINPACK以其使用简单、适用性强等特点被广泛地用于评价计算机的实际峰值运算能力。虽然这些指标并不反映给定系统的全部系统性能，但可以作为对系统理论峰值性能的一个修正。

世界计算机TOP500排名就是以LINPACK的测试结果为基础的。TOP500不仅仅是一个全球最快的前500台计算机的排名，实际上它可以看成一个数据库，因为它提供了除运算能力外的其它丰富的信息。如计算机厂商可以通过排名的情况分析高性能计算机发展走势；用户可以从中了解本行业最高端计算机使用情况等。本文将就以下三个方面对2003年6月21日公布的第21届国际TOP500排名进行简单的分析。

1）按台数统计的分布：

本次排名中HPQ以上榜159台的成绩在台数上排名第一。IBM仅比HPQ少一台，以总数158台名列次席。SGI以54台排名第三。而SUN只有9台计算机上榜，最快的一台仅名列第212名，说明SUN已经逐渐退出了在高端市场上争夺。表一给出了几个主要计算机厂商在排名中的具体分布情况（其中Japan一项为日本的NEC，HITACHI和FUJITSU公司生产的计算机的和）。

从表中可以看出，在前50名中IBM占据26个位置，超过半数；前150名中IBM有74台，占总数的49.3%。而HPQ在前150名中只有13个名额，只占8.7%；更多的HPQ系统集中在201—500名之间，共有128台。由此可以看出两个公司虽然在总数上相差无几，但IBM在大型系统上占有明显的优势。

TOP

LEO

论坛元老

Rank: 8 Rank: 8 Rank: 8 Rank: 8 Rank: 8 Rank: 8 Rank: 8 Rank: 8

8^#

发表于 2004-2-6 23:44 | 只看该作者

高性能计算机的评价（下）
类型：转载作者：IBM 互联网服务器部么石磊日期：2003-09-24 14:32:53

--------------------------------------------------------------------------------

2）按运算性能统计的分布情况

表二列出了主要计算机厂商的产品在运算性能方面的表现。IBM公司以总运算峰值速度130.9万亿次/秒排名第一，领先排名第二的HPQ40万亿次/秒之多。如果对前150台计算机进行统计，IBM的总运算速度是HPQ的2.76倍。日本NEC公司的地球模拟器以每秒35.86万亿次浮点运算的速度排名单机性能第一，从而也使日本厂商机器在前200名的总性能超过了HPQ。

表二：按运算性能统计的分布情况

3）行业领域分析

TOP500将所有的计算机按行业领域分成教育、科研、工业应用、国家安全、厂商拥有和政府部门等六类。其中高性能计算应用比较集中的领域是教育和科研领域，及工业应用中的一小部分。这一点可以从SGI公司生产的计算机分布情况得到证明。SGI公司的技术侧重于高端图形工作站和高性能计算机的研发，市场份额主要集中在高性能计算市场，所以排入TOP500的计算机多数用于高性能计算。而SGI公司上榜的54台计算机中有38台应用在教育和科研行业。IBM公司此次共有78台计算机用在教育和科研领域，占总上榜台数的一半，说明IBM公司在高性能计算方面的强势。HPQ公司的159台上榜计算机中有26台用于教育和科研领域，而大部分（116台）用在工业应用中，其中37台用于电信，12台用于数据库管理，8台用于财经行业，5台用于信息处理。只有一小部分用在能源和制造行业的高性能计算。另外，HPQ公司上榜的计算机中有10台由自己公司拥有，IBM和SGI各有4台和3台。

表三：行业分布情况

二、  存储结构

CPU是数据处理的核心，数据的供应则是由存储部件完成。我们看一个简单的运算c(i)=a(i)+b(i)。在这样一条指令中只有1个浮点运算，但有3个存/取操作。可以看出，存储部件的性能在某种程度上决定了系统的整体性能。

现在的计算机大多采用多级存储结构，即高速缓存（Cache），内存（Memory），硬盘（Hard disk）及外部设备（如带库等）。按从前到后的顺序，容量是递增的，而速度和成本则是递减的。其中高速缓存又被分成一级高速缓存（L1）、二级高速缓存（L2），有的系统会采用三级高速缓存（L3）。之所以采用这样的结构，主要是从降低成本的角度考虑。到目前为止处理器的发展基本上仍遵循着摩尔定律，即每18个月处理器的速度增加一倍。但是对于存储设备来说，无论是速度还是容量都无法跟上这种步伐。经过多年的发展，处理器与存储设备之间的性能差异越来越大，使得如何协调处理器与存储设备的关系，以构建一个平衡的计算机系统成为计算机设计的首要问题。如前所述，IBM的POWER处理器和Intel的IA-64分别代表了RISC和EPIC两种类型处理器最先进的技术，但两者的设计出发点不同。

为优化系统，IBM自项目初始就将系统整体设计理念贯穿始终。换句话说，IBM采用完善的方法研制微处理器芯片和服务器，将处理器核心的设计与系统的整体环境高效结合。IBM设计了整个系统，从微处理器到内存和输入输出芯片, 所有的设计都基于一个理念：即一个全新的高性能的微处理器需要一个高效的子系统为它提供给养。具体地讲，存储部件的时钟与CPU时钟是成固定的比例关系的，CPU到L2的时钟等于CPU时钟；芯片与芯片联接的时钟为CPU时钟的2倍；而芯片到L3和内存的时钟为CPU时钟的3倍，这使得所有存储层次的存取速度都会随CPU时钟的提高而线性增加，最终保证了系统性能的线性增长。

IBM的研发工作一直以系统为核心，因此在微处理器的研发中关注的是系统的整体性能。Intel是一家优秀的芯片生产厂商，他们设计的芯片是开放的，可以供其他厂商使用并整合到各自的计算机系统中。即使有HP的参与，其芯片设计理念也仅仅从芯片本身考虑，其业务和研发一直侧重在如何制造出一颗好的芯片，而不是如何提升系统的整体性能。

三、  体系结构

大型计算机通常分成5种实际物理机模型：并行向量处理机（PVP）、对称多处理机（SMP）、大规模并行处理机（MPP）、工作站机群（COW，Cluster Of Workstation, 或简称Cluster）及分布共享存储器（DSM）多处理机。PVP系统含有为数不多、功能强大的定制向量处理器（VP），定制的高带宽纵横交叉开关及高速的数据访问。但是这种系统通常不使用高速缓存，而是使用大量向量寄存器及指令缓存，使得该系统对程序编制的要求较高。只有那些充分考虑了向量处理特点的程序才能在该系统上获得较好的性能。另外，由于价格昂贵、难于管理等原因，这种类型计算机的应用主要集中在一些大型国家关键部门。MPP的计算机由于价格偏贵、灵活性不好等原因，也没有得到较好的推广。在国内高性能计算的市场上，现在常见的机型大部分属于SMP、DSM和Cluster。

SMP系统采用商品化的处理器，这些处理器通过总线或交叉开关连接到共享存储器。象IBM p系列服务器、HPQ的Superdoom、Alpha的ES,GS系列等都属于SMP结构的机型。DSM的机型中，存储器物理上分布在不同的节点中，但通过硬件和软件方法实现内存的统一编址。市场中SGI的Origin3000，Altix3000系列、SUN的Fire15K等都属于这种结构。Cluster结构是近年来发展势头最为强劲的体系结构。这类机型的技术起点比较低，用户甚至可以自己将一些工作站或微机通过以太网连接起来，配以相应的管理、通讯软件来搭建Cluster。但是如果要构造高性能、结构合理并具有好的RAS特性的Cluster却不是一件容易的事情。IBM公司从1993年开始推出具有Cluster特性的SP1（严格意义上讲，SP1属于MPP结构），经过10年的发展，到现在的Cluster1600，Cluster技术已经相当成熟，从系统管理（PSSP），任务调度（WLM，LoadLeveler），文件系统（GPFS）到应用开发环境（PE）都有相当成熟的产品。国内许多Cluster厂商都是模仿IBM的SP结构突出各自的Cluster产品。

从编程角度讲，可以将所有的计算机分成共享内存的计算机（PVP，SMP，DSM）和分布式内存的计算机（MPP，Cluster），相应地可以采用不同的并行编程方法。目前主要的并行编程方式有：消息传递模式（MPI，PVM等），共享内存并行模式（OpenMP，pthreads）及两种模式同时使用的混合模式。共享内存并行模式编程相对较为简单，程序员不用考虑数据在内存中的位置，进程管理及同步操作由系统完成。但是用这种方式编制的程序通常并行效率不高，因为它属于细粒度并行，主要针对循环进行并行处理。另外共享内存并行模式只能运行在共享内存类型的计算机系统上。消息传递的并行方式虽然是在分布式内存的计算机结构基础上发展而来的，但是几乎所有类型的计算机都支持这种并行模式，因此更具通用性。消息传递方式的并行属于粗粒度并行，程序员负责进程管理、消息传递及同步，并行的工作量要大于共享内存并行模式。但同时程序员可以控制的也更多，可以通过仔细考虑任务分配，并行算法等方式对程序进行优化，因而获得较高的并行效率。国际上采用消息传递方式的应用软件远远多于采用共享内存并行模式的应用软件。国内的高性能计算用户也大多采用消息传递的并行方式开发自己的应用程序。

IBM在Cluster方面的技术与使用一直处于世界领先的地位，目前已经做到用CSM（从PSSP发展而来）单点管理pSeries（使用Power4处理器和AIX/Linux操作系统）和xSeries（使用intel处理器和Linux操作系统）的混合集群，并用Grid技术实现跨不同节点的并行处理。以后的目标是具备自我配置和自我优化的能力，用户在系统处理能力不够时不必关心是哪一部分成为瓶颈，而只需在集群中添加一定数量的节点（pSeries或xSeries均可），集群将自动重新分配任务以达到最优效果。

四、  应用软件与性能

高性能计算机是一个复杂的系统，很难用几个参数或指标对其进行性能评价。为此开发了多种标准测试程序试图对高性能计算机进行评定，但这些测试指标通常都是对计算机某一方面进行测试，而不能全面地说明系统的整体性能。如LINPACK侧重于系统浮点峰值运算能力的测试；SPEC CPU2000测试的是单CPU性能及作业吞吐能力；SPEC OMP2001的结果说明了共享内存的计算机使用共享内存并行模式（OpenMP）的并行效率和加速比；STREAM试图对系统的数据访问能力（带宽和延迟）进行定量地评价等。高性能计算用户的应用千差万别，对计算机系统的要求也是各种各样。所以评价高性能计算机性能的最好方法是用用户自己的应用程序去进行实际的测试，或找到相似应用的商业软件的标准测试结果。这样的评价会更有针对性，也比较客观。比如在制造行业中，常常需要对汽车在高速行驶情况下的气动性能、飞机发动机内气体流动等情况进行分析。相应的商业流体力学分析软件有FLUENT、STAR-CD、POWER-FLOW等。下图给出了FLUENT软件在不同的计算机平台上标准测试FL5S3的结果，该算例计算的是发动机风扇转子内的跨音速流场分析，共有89,856个计算网格点。制造行业的用户还可以对照相应的算例找到与自己应用相似的测试情况，从而对计算机有一个初步的评价。

TOP

2号该用户已被删除	9^# 发表于 2005-9-13 15:50 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
2号该用户已被删除
	TOP

wuyuetiger

论坛元老

Rank: 8 Rank: 8 Rank: 8 Rank: 8 Rank: 8 Rank: 8 Rank: 8 Rank: 8

10^#

发表于 2005-9-14 12:05 | 只看该作者

应2号要求，补充一下，我只对x86 CPU比较熟，所以简单说一下，x86 CPU指令一般是向上兼容的，但是8080和之后的8085有若干指令不兼容。我只就8086之后的CPU的品牌说一下，就我所知批量生产x86芯片（协处理器不计）的主要厂商有intel,AMD,cyrix,IBM,TI,IDT,ST,NEC,三菱（英文太长记不住）,Harris,Siemens,Transmeter,NS,NexGen,CHIPS,VIA,MHS,OKI,富士通（英文太长记不住）,RISE,UMC不知道有没有漏掉的，大家帮我看一看，Kingston和Evergreen纯粹是把AMD的CPU买来装个风扇，这儿不归为CPU生产厂商

TOP

‹ 上一主题|下一主题 ›

返回列表