提高处理器的性能,提高主频和优化软硬件结构不可偏废,光强调主频和光强调结构都是不行的。就象要把100根木头从A地扛到B 地,甲每10分钟一个来回,每次扛1根木头;乙每20分钟一个来回,每次扛4根木头;丙60分钟一个来回,每次扛6根木头。我们不能根据甲跑得快(主频高)就说甲的性能最高,也不能根据丙每次扛得最多(每拍执行的指令多)就说丙的性能最高,性能是一个综合的东西。当然,还有其它要考虑的因素,如甲乙丙三人每小时的报酬(处理器的功耗、面积)等。虽然狗剩1号的成功对我们来说是一个巨大的进步,但有一件事我一直深引以为恨,那就是狗剩1号的性能没有达到预想的目标。 虽然主频不低,但跑起程序来比起类似结构的RISC处理器以及相同主频的PII还有一些差距。SPECCPU2000的分值也不高。我曾经整日整夜地泡在机房运行各种测试程序,并试图通过软件优化的方法提高性能。虽然取得了一些效果,但不理想。后来的性能分析表明, 有些狗剩1号性能瓶颈其实完全是可以通过简单的优化克服的,可惜当时项目推进得太快,没有时间做充分的性能分析和优化。这件事使我极其郁闷,因此把性能分析不够作为狗剩1号设计过程的一个重要教训,并发誓在狗剩2号的设计中要一血前耻。知耻近乎勇,后来狗剩2号步步为营的性能分析果真为狗剩2号提高性能发挥了巨大作用。在中科院领导对我们承担的龙芯2号重大项目进行立项审查的会上,李老师、唐志敏和我在向院党组汇报后准备离开时,江院长追出来跟李老师说:“李院士,我就把宝压在你身上了”。在863计算机软硬件主题专家对我们承担的龙芯2号项目进行立项审查的会上,我做完报告后,专家组组长怀进鹏老师曾声色俱厉地说:“胡伟武,这个项目是863计算机软硬件主题最大的项目,完不成任务提头来见!”这两件事给我很大的触动,让我想起上甘岭战役前夕彭德怀曾对秦基伟说:“我们要对朝鲜的历史负责”。 狗剩2号的设计在狗剩1号tapeout前就开始筹划,主要是唐志敏和我围绕我们申请的中科院和863的项目进行调研并确立在2004 年项目结束时SPECCPU2000的分值达到300分的目标,并在此基础上确定64位结构和4发射的目标。根据项目目标及狗剩1号研制的经验和教训,我们确定了狗剩2号研制的如下三条设计原则。 一是充分发挥结构设计优势和软硬件协同的设计原则。即通过处理器中各个层次的并行性开发来提高性能。这些并行性包括指令级并行、数据级并行以及线程级并行。其中指令级并行主要是四发射结构的实现,即在指令流水线的任何一个阶段每拍都执行四条以上的指令。为了有效发挥多发射通路的效率,必须实现充分的乱序执行技术,减少指令间的互相等待。数据级并行性的开发主要是通过SIMD的技术实现向量指令。线程级并行性包括单处理器的多线程技术以及多处理器的多线程技术。狗剩2号在并行性开发上主要开发指令级并行技术,并通过把浮点部件与媒体处理共用的方法实现数据级并行的SIMD技术。软硬件协同主要指通过编译优化及硬件对编译器的支持提高性能,既不片面追求复杂的硬件大包大揽,也不把沉重的优化负担完全压在编译器身上。编译器对提高性能十分重要,我们曾有这样的体会:在同一台机器上,用不同编译器编译出来的同一个程序,运行时间竟相差75%。 二是以物理设计指导结构设计的原则首先,流水线的最大逻辑路径不是由体系结构设计的需要来确定,而是由物理设计的要求来确定。即先确定每一级流水线的最大延迟并在此约束下进行结构设计。其次,在做结构设计时,心中要有物理设计的概念,即要明白相应的逻辑在物理上是什么样的。在狗剩2号设计过程中,结构设计人员至少做到网表级。三是设计和实现方法上稳扎稳打的原则首先,重视Cycle-by-Cycle的C模拟器的设计并把C模拟器作为详细结构设计的文档是我们在狗剩1号开发过程中形成的一条最重要的经验,即“可执行的结构设计”的概念。在设计初期就通过充分的仿真与验证不仅不会影响进度,而且会加快进度。此外,狗剩2号的功能设计和物理设计也分成几步。第一步,还是采用标准单元设计,只在很有限的局部做全定制(如寄存器堆),主频200-300MHz以上,功能上不实现二级CACHE,争取尽快完成流片。第二步,功能上增加二级CACHE接口或/及DDR接口等,物理设计上使用更多的宏单元,但设计方法还是基于标准单元的方法,主频在300-400MHz以上。第三步,功能上增加对多处理器系统的支持,在更多的地方使用全定制单元或使用全定制流程,主频争取在400-500MHz以上。 |