Intel处理器发展史(图拉丁、奔腾4、酷睿的前生今世)

xwader 2007-08-06 02:39:00 5294人围观

 Intel处理器发展史
  (图拉丁、奔腾4、酷睿的的前生和今世)
  
  第一部分图拉丁的分类与技术浅谈
  
  奔腾M是图拉丁的儿子,酷睿是图拉丁的孙子!
  
  图拉丁,英文名Tualatin,是美国一条河流的名字。这是英特尔最后一款奔腾III处理器的核心研发代号,图拉丁奔腾3的历史极为短暂,但又有着特殊的地位。不要忘记,桌面版奔腾III有三种核心:最古老的Katmai奔腾III(其实就是奔腾II的核心加上SSE指令集,0.25微米工艺,512KB半速二级缓存,Slot 1接口)、最流行的Coppermine奔腾III(0.18微米工艺,256KB全速二级缓存,Socket 370与Slot 1两种接口),以及本文的主角Tualatin奔腾III(0.13微米工艺,256KB全速二级缓存,Socket 370接口)。在这三种奔腾III中,只有图拉丁被单独罗列出来,以示与另外两种奔腾III的本质区别:图拉丁奔腾III集古老的P6架构优点于一身,具有高性能、低功耗、低发热量的优势,是奔腾III的极致,也是奔腾M和酷睿(这两种处理器依旧是继承了P6架构)出现以前的P6微处理器架构的极致。时至今日,就连不懂CPU技术的二手笔记本商家都懂得以“图拉丁”的名字来标榜自己奔腾III二手笔记本的与众不同,由此可见图拉丁在用户心目中的神圣地位。
  
  上面所说的都是桌面版本处理器的情况。其实图拉丁除了具有桌面版以外,还有移动版和服务器版,桌面版也有奔腾III和赛扬的分别,下面就来具体介绍一下它们的区别。
  
  先说桌面版图拉丁奔腾III。这款处理器和133MHz FSB铜矿(Coppermine)奔腾III有很多共同的地方:同为133MHz FSB,同样具有256KB全速二级缓存,不同的地方在于:图拉丁奔腾III不支持双路处理器并行工作模式而铜矿奔腾III支持;图拉丁奔腾III的二级缓存延迟时间为1而铜矿奔腾III为0;图拉丁奔腾III支持自奔腾4开始采用的数据预读取技术而铜矿奔腾III不支持。因此在性能方面,同主频的图拉丁奔腾III并不比铜矿奔腾III快(数据预读取技术可以弥补二级缓存延迟时间长而带来的性能损失)。图拉丁奔腾III有如下几款:1A GHz/1.13A GHz/1.2 GHz/1.33GHz。
  
  再来谈谈桌面版图拉丁赛扬。很多人认为图拉丁赛扬就是采用100MHz FSB的图拉丁奔腾III,这是不正确的。图拉丁赛扬的性能比同主频的图拉丁奔腾III要低,除了FSB低以外,还因为图拉丁赛扬仅支持精简的数据预读取技术(还有一种说法是根本不支持,笔者手中资料有限,所以不做论证),此外二级缓存的位宽也低,所以不能和图拉丁奔腾III相比。根据我的测试,图拉丁赛扬1.4 GHz的性能略低于图拉丁奔腾III 1.13A GHz,但是高于1GHz的铜矿/图拉丁奔腾III。图拉丁赛扬有如下几款:900A GHz/1A GHz/1.1A GHz/1.2 GHz/1.3GHz/1.4 GHz。很多人都否认图拉丁赛扬有1.4GHz的版本,其实IBM NetVista A22就有采用赛扬1.4 GHz的机型,笔者就买了一款。
  
  第三谈谈服务器版的图拉丁奔腾III-S。这款处理器是图拉丁家族的性能王者,价格也是出奇地昂贵(笔者收藏过两款:1.26GHz和1.4GHz)。图拉丁奔腾III-S面向双路服务器市场,采用133MHz FSB,具有512KB全速二级缓存,二级缓存延迟时间为0,支持增强型数据预读取技术,性能极为强悍。当时国外很多英文硬件评测网站都有图拉丁奔腾III-S与奔腾4/Athlon XP的对比评测,以Tom's Hardware Guide网站的评测为例,在采用815平台、PC133 SDRAM内存的情况下,图拉丁奔腾III-S 1.26GHz战胜了850平台、PC800 Rambus内存的奔腾4 1.8GHz。图拉丁奔腾III-S有如下几款:1.13 GHz/1.26 GHz/1.4 GHz,此外还有极少量的1.53 GHz工程样品散落于世界各地的著名硬件评测室。
  
  最后来谈谈移动版的图拉丁奔腾III-M。这款处理器的技术特征基本等同于桌面版图拉丁奔腾III,但是二级缓存增大到了512KB,同主频下的性能显然强过桌面版图拉丁奔腾III而直追图拉丁奔腾III-S。图拉丁奔腾III-M显然比桌面版图拉丁奔腾III的地位高,因为移动版奔腾4处理器发热大功耗高,很难应用在轻薄笔记本上,相比之下发热低功耗低的图拉丁奔腾III-M就有了用武之地,得到了长足发展,直到奔腾M出现以前,图拉丁奔腾III-M都是轻薄笔记本的当然之选。而桌面版奔腾III因为性能太强会威胁到奔腾4,所以英特尔人为打压它:阉割二级缓存、保持高售价和低产量、鼓励品牌机厂商采用奔腾4等等不公正的市场举措。图拉丁奔腾III-M的型号很多很复杂,以正常电压版为例,主要有866 MHz/933 MHz/1 GHz/1.13 GHz/1.2 GHz/1.33 GHz等几款。
  
  第二部分 英特尔为何要推出图拉丁
  
  奔腾III及以前的微处理器时代,是一个处理器性能与主频紧密结合的时代。那个时候无论是英特尔还是AMD,他们的处理器产品在主频提升的同时,同样也会带来相应的性能提升。以Katmai奔腾III为例,在FSB相同的情况下,主频每提升50MHz,性能相应提升7%左右(参考《PC Shopper-电子测试》)。当时英特尔与AMD的处理器竞争和现在一样,说到底就是性能之争。但是当时处理器的性能高低与主频高低是合二为一的事物,因此性能之争也就是主频之争。从4004微处理器推出以来,英特尔一直就是微处理器性能(也就是主频)领先者,而Cyrix和AMD等则是追随者,这种局面一直持续到奔腾III时代,直到AMD Athlon推出时为止。还记得当时AMD提前宣布将要发布全新架构的Athlon处理器,主频为600MHz的时候,英特尔着慌了。那时候奔腾III还停留在0.25微米工艺时代,最高主频仅有550MHz,如果让AMD超越,微处理器老大的颜面何在?于是英特尔匆匆忙忙给奔腾III加了0.05v电压,抢先推出了奔腾III 600MHz处理器以保持颜面。谁成想AMD在如期发布Athlon 600MHz处理器的时候,还同时发布了此前根本没有对外宣布的Athlon 650MHz处理器!这是一个伟大的时刻,英特尔在微处理器发展史上第一次被自己的竞争对手超越!
  
  挨了一记当头闷棍的英特尔开始昏招迭出,先是将Katmai核心奔腾III的外频提升至133MHz,推出了奔腾III 533B和奔腾III 600B(有人将这两款处理器说成是新核心,代号Confidential,真是天大笑话,各位自己去查查Confidential是什么含义,英特尔任何一款没有正式发布的工程样品处理器都有Confidential的标记),但是性能无法抗衡同主频的Athlon,于是采用0.18微米工艺的Coppermine奔腾III匆匆登场,主频从500E MHz直到700MHz,接口从Slot 1到Socket 370,FSB有100MHz有133MHz,型号十数款,让人眼花缭乱。Coppermine奔腾III的二级缓存是256KB全速,延迟时间为0,位宽也高于512KB半速二级缓存的Katmai奔腾III,因此性能有了明显提升,和同主频Athlon相比互有胜负,基本持平。这时候英特尔与AMD的竞争已经到了白热化的程度,主频之争的激烈程度前所未有。主频高就意味着性能高,冲击1GHz大关也因为变得分外引人注目,当时英特尔拼命寻找加工最好的硅晶元,希望能抢先制造出1GHz的处理器,这也使933MHz高主频的奔腾III产量极少进而断货(因为最好的硅晶元都用来生产测试1GHz奔腾III了)……
  
  最先达到1GHz主频的是AMD的Athlon,仅仅领先奔腾III 1GHz不到一个月,但这足以让AMD自豪了。美中不足的是,1GHz的Athlon性能不敌1GHz奔腾III,这是因为AMD找不到能在500MHz下稳定运行的Athlon二级缓存芯片(最早的Athlon二级缓存也是外置在CPU PCB板上的芯片,以处理器主频一半的速度运行),因此不得不让二级缓存的运行速度降低到CPU主频的三分之一也就是333.3MHz,而奔腾III 1GHz处理器的二级缓存虽然容量较小,但是运行速度高达1GHz,依靠强大的二级缓存,1GHz的奔腾III在性能上战胜了1GHz的Athlon,多少为英特尔挽回了一些颜面。
  
  但是事情却没有这么简单。
  
  AMD已经意识到了外置半速缓存的缺陷,决意开发二级缓存On Die的Athlon XP。这是最让英特尔害怕的,于是英特尔想抢先推出1.13GHz的奔腾III,先在性能上领先,然后再去建设0.13微米工艺的生产线,用图拉丁来对抗Athlon XP,备用方案就是奔腾4 Willamette,这是因为英特尔可以用0.18微米工艺来生产奔腾4,但是因为奔腾4高频低能,非要到主频提高到一定程度下(例如2GHZ以上)才能发挥威力,并且奔腾4的NetBurst为架构是需要超线程、高FSB来配合的,所以英特尔并不希望奔腾4过早登场,而是寄希望于图拉丁。当时英特尔给媒体的内部文当中规划的图拉丁桌面处理器,技术参数基本等同于实际生产的图拉丁奔腾III-S,只是FSB提升到了166MHz/200MHz,规划中的830芯片组也是准备支持DDR内存的,令人颇为期待。可惜人算不如天算,当时的0.18微米工艺应用不到一年,生产1.13GHz的奔腾III实在是勉为其难。英特尔霸王硬上弓的后果,就是全面回收几乎不能正常运行的奔腾III 1.13GHz处理器。而这时候呢,AMD正在春光满面地向媒体介绍他们刚刚推出的1.1GHz Athlon XP处理器呢……
  
  英特尔颜面尽失,于是开始筹划转移视线,把处理器的主频-性能之争转变为纯粹的主频之争,以转移公众视线。于是,奔腾4 1.4 GHz/1.5 GHz发布了,一下子吸引了全世界的目光,人们根本想象不到,刚刚回收了1.13GHz处理器的英特尔居然能马上拿出这么牛x的处理器,1.5 GHz呐!这时候天真的人们还在用主频即性能的固定套路来看待奔腾4,这就中了英特尔的奸计。
  
  可是总有清醒者,那就是公正的硬件评测媒体。
  奔腾4 1.4 GHz/1.5 GHz发布前夕,就有评测媒体质疑:为何奔腾4的主频这么高,但是实际测试项目很多都不如1GHz的奔腾III呢?对此英特尔的回答是:奔腾4是一种全新的架构,它的性能不能用传统的观点去评判,用1GHz奔腾III去对比1.5GHz的奔腾4没有实际意义。可是奔腾相对于486也是一个全新的架构,为什么那时候英特尔大肆宣传奔腾比同主频的486快两倍并且拿出了官方测试数据呢?此后奔腾MMx/奔腾II/奔腾III的发布,英特尔同时也都会拿出他们与前一代处理器的性能对比评测数据,为什么奔腾4发布,英特尔却交了白卷没有官方评测数据呢?事实上,英特尔直到2GHz的奔腾4问世,才羞答答地拿出了一个2GHz奔腾4与1GHz奔腾III的性能对比官方测试数据。当然,2GHz的奔腾4自然是完胜1GHz的奔腾III了,但是,这又有什么意义吗?486DX4-100MHz处理器也照样完胜奔腾 60MHz处理器,人家的主频高啊。
  
  奔腾4的发布,开了一个恶劣的先例:从来没有下一代处理器在同主频的情况下性能低于上一代处理器,奔腾4做到了;英特尔处理器发展史中处理器的更新换代从没出现过主频断档,奔腾4也做到了。奔腾4的起始工作主频是1.4GHz(1.3GHz的奔腾4是过了很久才发布的,仅限量供应品牌机厂商),奔腾III的截止工作主频是1GHz,400MHz的频率断档靠谁来填补?这个受累不讨好的任务,就交给几乎已经胎死腹中的图拉丁来完成了。这几乎是图拉丁奔腾III桌面版问世的唯一原因。图拉丁奔腾III就像一个受虐待的童养媳,小心翼翼地出世了,为了尽量压低它对低主频奔腾4的巨大性能优势,英特尔先是阉割了它一半的二级缓存;一看性能还是太牛x,再把FSB降低到133MHz;一看性能还是太牛x,于是再把二级缓存延迟时间增大为1;一看还是太牛,于是还要阉割,我靠打住吧,再阉割不就成了赛扬了吗?图拉丁的开发工程师不干了,于是英特尔又在配套芯片组上打主意,取消了830主板的发布,而是推出了整合i752显卡的815GM芯片组来搭配图拉丁奔腾III……即便这样,图拉丁奔腾III 1.13A GHz还是打得奔腾4 1.5GHz满地找JJ,于是英特尔又出损招,严格限制图拉丁奔腾III的出货量,将其售价人为提升到很高的位置,鼓励品牌机厂商采用奔腾4处理器。这样一来,图拉丁奔腾III在市场中芳踪罕觅,其稀缺程度甚至超过了服务器版的奔腾III-S……从1GHz攀升到1.33GHz,图拉丁奔腾III终于完成了填补两代处理器主频空白的任务黯然退场了(图拉丁奔腾III 1.33GHz最惨,才发布就停产)。
  
  图拉丁赛扬的命运比同门大哥好得多。这是因为英特尔需要它来抗衡AMD的钻龙(毒龙),继承了图拉丁的优良性能,256KB缓存(图拉丁赛扬的256KB缓存可比赛杨D的256KB缓存实在多了),100MHz FSB,加上精简数据预读取技术,图拉丁赛扬确实出色完成了任务。可是图拉丁就是双刃剑,英特尔又开始担忧它和Willamette赛扬的工作交接了,如果图拉丁赛扬像图拉丁奔腾III痛扁低主频奔腾4那样痛扁Willamette赛扬怎么办?如果他也把Willamette赛扬打得满地找JJ怎么办?哦忘记了,赛扬本来就是太监,没有JJ,不过图拉丁赛扬显然是韦小宝,假太监真男子汉。英特尔想不出妙策,于是就给两款赛扬留下了300MHz的主频空白,外行一看,我考,怎么赛扬1.4GHz完了就是赛扬1.7GHz呢?1.5/1.6GHz的产品呢?具有讽刺意味的是,图拉丁赛扬1.4GHz照样轻轻松松把Willamette赛扬1.7GHz打得满地找假阳具……
  
  服务器版的图拉丁奔腾III-S问世有英特尔自己的苦衷。奔腾4至强的性能不济(照样被图拉丁奔腾III打得满地找JJ,更不要说跟奔腾III-S叫板了),配套主板平台昂贵(1GB Rambus内存,价格您自己算去吧),用户不理睬,于是拿出奔腾III-S来,兼容现有815平台,性能强大发热低,做1U服务器和低端双路服务器最理想,得,就它吧。于是奔腾III-S高价问世了。这里透露一下,图拉丁奔腾III-S很多都是不锁频的哟……
  
  相比之下,移动版的图拉丁奔腾III命最好。如前所述,奔腾4具有高发热量高功耗的特点,用来做笔记本CPU实在是赶鸭子上架赶猪爬树,勉为其难。图拉丁奔腾III呢,具有发热低功耗低的优点(其实图拉丁用好的散热片,机箱通风良好情况下根本不用风扇),同时还具有很高的性能(图拉丁奔腾III-M一样能把主频比自己高几百MHz的移动版奔腾4打得满地找JJ,不过移动版处理器太小巧,找JJ要用放大镜),是最适合笔记本的处理器。所以英特尔高调宣传图拉丁奔腾III-M,还给它设计了一个和移动版奔腾4风格类似的logo,希望能用图拉丁奔腾III-M占居主流移动处理器市场的大部分份额。但是图拉丁再好也是奔腾III,英特尔不是用铺天盖地的广告宣传说4比3好吗?为什么买笔记本不买奔腾4的却买奔腾III的呢?英特尔有苦说不出,笔记本厂商也跟着倒霉,不得不用移动版奔腾4来制作主流笔记本,轻薄笔记本实在容不下移动版奔腾4这位大爷,才采用图拉丁奔腾III。结果呢,用户纷纷抱怨,买了主流笔记本的责问厂商,你的最新款笔记本怎么电池使用时间比老奔三笔记本短这么多?买了轻薄笔记本的用户也责问厂商,都说轻薄笔记本采用的才是笔记本厂商最先进的技术,你为啥卖给我一个已经淘汰的奔腾III笔记本啊?厂商的不满用户的抱怨,促使英特尔另辟蹊径,开始设计奔腾M。这个奔腾M迅驰平台,其实就是换了新汤(名字)加了调料(SSE2)搭配了两碟点心(无线网卡和855芯片组)的图拉丁奔腾III而已。
  
  第三部分 图拉丁与奔腾4,性能孰优孰略
  
  说这个问题前,我们先打个比方。你认为要完成扣篮动作,需要什么条件?答案是身高和弹跳力。身材很高的人轻轻一跳就能扣篮,但不是说矮个子就不能扣篮,我们国家那些一米六左右的举重运动员,不用助跑就可以原地跳起轻松来个倒扣,靠的就是机器发达的腿部肌肉和惊人的弹跳力。同样道理,决定处理器性能高低的因素也不是一个,主要有两个,一个是主频,一个是单位主频下的执行效率。
  
  奔腾4能够在同样的0.18微米工艺下轻松达到2GHz的主频,奔腾III刚刚达到1.13GHz就已经到了极限,这是为什么?这是因为奔腾4的运算流水管线多达20级甚至31级,而奔腾III只有11级。运算流水管线越长,就越容易在同样制造工艺下达到更高的工作主频。Athlon在同样制造工艺下可以达到奔腾III难以达到的高主频,就是因为Athlon的运算流水管线比奔腾III略长。但是运算流水管线过长也会带来负面影响,管线越长,单位主频下的处理器执行效率就越低,性能的发挥就会受到影响。众所周知,奔腾4正是在流水管线上的加长设计,才能够达到如此之高的主频,并在主频争霸战中战胜AMD,逼得Athlon XP“不敢以真面目示人”(指Athlon XP不用真实主频标注,而用“相当于奔腾4多少”的主频标注)。但是流水管线的加长会导致数据在管线逗留的时间增长,导致数据出错的可能增加,一旦一个数据出错,其结果就在于整个运算步骤都将重新来过,这样就会造成处理器处理性能的降低。依靠高效的分支预测体系和Cache机制可以改善这一点,但仅仅是“改善”而不是“弥补”。要想弥补高频低能的缺点就要靠更高的主频来抵消,比如同样制造工艺下,2GHz的奔腾4性能总会高过1GHz奔腾III,这就是在不改变制造工艺的前提下带来的性能提升,只是英特尔不厚道,故意把人们误导到“高主频=高性能”这个自奔腾4问世后已经不再是真理的误区中来。而AMD呢,即便是Athlon 64,流水管线也很短,所以执行效率非常高。Athlon 64的整数流水线达到12级,浮点流水线达到17级,相比Athlon XP仅仅提高两个工位,但是大力改善了分支预测机制,所以同主频下性能提升明显。从中我们可以看到英特尔设计奔腾4与AMD设计Athlon的两个根本不同思路:英特尔是追求主频优先,靠极高的主频来提升性能;AMD则是追求效率优先,靠高效的执行机制实现在相同主频下达到更高的性能。AMD这种做法,其实师承于英特尔的P6架构设计思路(奔腾III、奔腾M以至酷睿,承袭的就是这种设计思路)。明白了两种设计原理,再考虑到奔腾4单位主频下的执行效率只有奔腾III 70%-75%左右的事实,我们就能很容易得出如下结论:同主频下,奔腾III的性能显然要高于奔腾4。但是,奔腾4在相同制造工艺下可以达到奔腾III所不能达到的高主频,这个高主频完全可以弥补低性能还显得绰绰有余。
  
  如果不考虑处理器的功耗和发热量,我们可以认为,这两种处理器设计思路都是可行的。但是处理器不能只停留在纸面上,必须要生产制造出实物来才能实现价值,而实际的处理器在工作时必然要耗费电量发出热量,这时候就要看哪种设计思路更实际更合理的问题了。
  
  流水线运算管线不是像输精管输卵管那样细微的生物细胞管子,而是由一个个的晶体管组成的。显而易见,流水线运算管线越长,晶体管数量就越多;晶体管数量越多,耗电量就越大;耗电量越大,发热量就越高。这就是奔腾4处理器的命门所在,谁愿意养一个电老虎在家里供着?
  
  
  第四部分 奔腾4的致命缺陷,轻薄笔记本仰仗图拉丁
  
  自从奔腾4问世以来,先后经历了三代核心。笔者给这三代产品的评价是“从失败走向成功,然后从成功走向新的失败”。
  
  奔腾4第一代核心就是Willamette,于2000年11月发布。它采用0.18微米工艺制造,拥有256KB全速二级缓存,400MHz FSB。在整数处理速度和浮点性能这两个重要指标上,Willamette奔腾4相比P6架构的奔腾III没有有任何提升,它仅仅是对抗雷鸟Athlon的权宜之计,因为当时英特尔根本没有准备好0.13微米工艺生产线用来生产Northwoood奔腾4和图拉丁奔腾III。好在当主频提升到1.7GHz以后,奔腾4在性能上已经完全超越了铜矿奔腾III,多少给英特尔带来一些心理安慰。但是Willamette奔腾4的最致命问题不是性能低下,而是它的功耗和发热量实在大得惊人。曾有个内部消息指出,英特尔某些工程师建议给Willamette搭配512MB缓存甚至三级缓存(后来在Gallatin至强和北木奔腾4至尊版实现了),以求提升Willamette的性能,至少要让它的性能不输给自家的上代产品奔腾III。但是这个建议很不现实,反驳的人士指出,如果真得这么做了,恐怕Willamette奔腾4就会做得像一块板砖一样庞大。这或许是笑话,但也从一个侧面反映了Willamette奔腾4是仓促推出的事实。但是英特尔的宣传能力是在强大,很多新装机的朋友都花了数千元的高价去买Willamette奔腾4+850主板+Rambus内存的套装,却根本想不到自己成了英特尔死要面子举动无辜的替罪羊。
  
  第二代核心Northwood由于有充裕的准备时间,加之采用了0.13微米工艺制造,较好地解决了发热与功耗的问题,所以迅速取代了Willamette成为市场主流。此后随着800MHz FSB、超线程等新技术的引入,NetBurst架构的威力的以充分发挥,所以从性能上来讲,图拉丁奔腾III已经没法和Northwood奔腾4叫板了。笔者自己实际使用,无论是玩游戏(Q3A)还是看高清晰影片,奔腾4 2.8C GHz都远远超过奔腾III-S 1.4GHz。就算是AMD,也开始认真审视起奔腾4这个一向被它看成是成人玩具的处理器来了。
  
  Northwood奔腾4确实可以成为一代经典,因为他很好地再现了Netburst开发团队的本意。Netburst架构采用超常流水线运算管线,这么长的运算管线天生就是为超线程技术准备的,要知道像奔腾III/奔腾M/酷睿那样P6架构短流水线的处理器是没办法实现超线程技术的!有关超线程的技术文章有很多,我在这里不再赘述。
  
  Northwood奔腾4的继任者Prescott则是一个新的失败作品。这个败笔使得英特尔最终下决心放弃了Netburst架构。我很奇怪Netburst的开发团队是怎么想的,搞出这样一个怪物来消耗地球上有限的能源:它继承并发扬了Willamette奔腾4的一切缺点,流水线更是加长到31级!虽说Prescott奔腾4也有优点(例如SSE3、更大的二级缓存和更高效