星期五, 4月 11, 2008

處理器路邊社Processor Watch最終話:終わりの始まり

昨天被告知Shopper最終刊不會登出內容,索性抽回放在blog上。

說真的,要不是事先不知情這專欄要和PC Shopper一同殉情,我最後一期絕對不會寫成這樣,只是受限於版面空間,隨便整理技術規格資料,只為了其他人的「登陸」鋪路。再見了,3608 x 1.5的稿費和兩小時的光陰...和長達四年(大概沒多少人看,哈)的Processor Watch專欄。

更遺憾的是,塔麵長輩的「台灣水電工」再也無法復活,嗚呼哀哉~

半導體業界年度盛事IEEE ISSCC 2008
當世界開始籠罩在Intel的陰影之下…

從1953年起至今,一直是全球先進固態電路領域研發趨勢重要指標與IC領域技術發表最高殿堂,今年二月在美國舊金山舉辦的IEEE ISSCC(International Solid State Circuits Conference,國際固態電路會議)2008,更是一口氣出現了多款新型汎用處理器的相關資訊,從史上最大單一晶粒面積的巨獸、針對企業資料庫量身訂做的資料處理引擎、藉由45nm製程大幅削減電力消耗的異質多核心浮點運算心臟,到令人匪夷所思的超迷你x86處理器,都值得任何關心處理器技術發展的讀者投以關愛的眼神,就算這些僅為ISSCC 2008的冰山一角。

礙於篇幅限制與專業缺陷(滾開!讓專業的來!),筆者並不強出頭探討這些處理器的技術細節,特別是電路設計和製程特性,將轉由停擺近兩年、即將重新開張的「台灣水電工」技術專欄操刀,讓PC Home Shopper的讀者,能看到最高水準的內容。

Intel的新旗艦:20億電晶體、30MB快取的4核心Itanium「Tukwila」

市場定位

4-512處理器高階伺服器

製程技術 / 電晶體數目

65nm / 205000

處理器核心運作時脈

2GHz

晶粒面積

700平方公釐(21.5mm×32.5mm

標準設計功耗

170W130W

腳位 / 封裝面積

LGA1248 / 66mm×66mm

處理器核心數 / 執行緒數

4核心 / 8執行緒

快取記憶體(總30MB

L1

16kB指令×4 / 16kB資料×4

L2

512kB指令×4 / 256kB資料×4

L3

6MB×4

快取資料一致性目錄

1.9MB×1

記憶體(總34GB/s

標準配置

4通道FB-DIMM Gen 1/2

加裝Mill Brook

8通道RDDR3-800/1066

QuickPath Interconnect系統匯流排

4 Full-width 4.8GHz + 2 Half-width 4.8GHz(雙向總96GB/s


Intel的真正旗艦產品和尖端技術結晶,還是Itanium。

2001年5月31日是高階伺服器市場最具歷史性的一天,HP和Intel合作數年的Itanium處理器「Merced」讓「Intel Inside」的資料中心骨幹,成為伸手可及的現實,如同今日企業可跟不同廠商購買可執行相同作業系統與應用程式的x86伺服器,Itanium打破昔日RISC伺服器與CISC大型主機「處理器/伺服器/作業系統三者一以貫之」的封閉生態,讓企業不再成為被特定廠商綁架的肉票。

歷經三個世代Itanium 2「McKinley」、「Madison」和「Madison 9M」的發展,2006年7月18日,兼具高效能及高延展性的雙核心Itanium 2「Montecito」問世,2007年10月31日,更省電、更可靠的雙核心Itanium 2改良版「Montvale」帶給企業更多的選擇。結合QPI與整合型記憶體控制器,四核心Itanium「Tukwila」終於有足以和IBM Power6一拼的本錢,假如筆者目前私下打聽到的情報無誤的話,甚至可能有過之而無不及。

漢朝賈誼在<過秦論>中對秦始皇統一中國的過程,所下的評語「奮六世之餘烈」(講的白話一點,就是延續列祖列宗的努力),堪稱是這幾年「Itanium大革命」最貼切的寫照。搭配首度展現高階伺服器應用潛力的Windows Server 2008「Longhorn」,2008將是決定Wintel高階平臺能走多遠的關鍵年。

UPDATE: System Bus和Memory Subsystem一直都是數年來Itanium公認的大弱點,這次Tukwila一口氣補上QPI和Integrated Memory Controller,就讓大家看看「封印解除」後的McKinley uArch有多少真本事。

16核心/32執行緒的高效能資料處理引擎Sun UltraSPARC RK「Rock」

市場定位

資料庫專用高階伺服器處理器

製程技術 / 電晶體數目

65nm / 41000

處理器核心運作時脈

2.3GHz

晶粒面積

396平方公釐

標準設計功耗

250W

處理器核心數 / 執行緒數

16核心 / 32執行緒

浮點運算器數目

8組(雙核心共用1組)

快取記憶體

L1

32kB(+8kB Pre-decoding)指令×4 / 32kB資料×8

L2

2MB×1

記憶體

4通道FB-DIMM


雖然筆者無法隨隨便便就賭上爺爺的名譽做出唬爛不打草稿的偉大推理,但如沒有意外,這應該是歷史中第一款針對資料庫與ERP特化的伺服器處理器。潛在的幕後黑手,到底是哪家長期和Sun關係良好的軟體大廠呢?就無需筆者贅述了。

繼8核心/32執行緒的Niagara和8核心/64執行緒的Niagara 2,Sun勉力推出的第三款「Throughput Computing」概念處理器,針對高密度資料處理與高效能浮點運算而開發,發掘多執行緒最大潛能的全新架構高階處理器。值得注意的是,Rock支援執行緒層級的預測執行功能「Hardware Scout」,最多同時32執行緒,當快取誤失(Cache Miss)時,可使用閒置的資料處理引擎預先擷取所需要的資料,提昇整體的資料吞吐量。

要筆者對Sun近年的最偉大實驗「Throughput Computing」下一個最簡單的意見,大概不外乎「過去處理器廠商先按照自己的意思去設計產品,再推出一堆如同有字天書的程式最佳化手冊去強迫軟體廠商去大費周章最佳化,Sun則是反過來做,讓處理器架構主動去配合應用程式的行為特性,以便從Intel/IBM雙強的慘烈競爭中殺出一條血路」

但當筆者狂敲Cherry G80鍵盤之際,卻傳來UltraSPARC RK將延期一年的噩耗,而過去數年來主導UltraSPARC處理器發展、台灣出身的Sun最高華人主管顏維倫驚傳跳槽路由器大廠Juniper,Fujitsu的四核心SPARC64 VII也看來沒消沒息。也許決定SPARC生死存亡的關鍵時刻,就即將來臨了…

UPDATE: 大家快點來猜猜藏在Sun內部測試已久的Solaris Itanium版何時會重見天日呀!

為未來單晶片1T Flops造橋鋪路的45nm製程、最高運作時脈6GHz的Cell BE處理器

市場定位

高效能浮點運算專用異質多核心處理器

製程技術 / 電晶體數目

45nm SOI晶圓 / 24100

處理器核心運作時脈

最高6GHz

晶粒面積

115.46平方公釐(12.75mm×9.06mm

標準設計功耗

視時脈而定,較65nm同時脈版本削減38%,時脈3.2GHz推估50W

處理器核心數

1 PPE + 8 SPE

快取記憶體

L1

32kB指令 / 32kB資料

L2

512kB

SPE Local Storage

256kB×8

記憶體

2通道Rambus XDR


基本上,撇開未來的PS3究竟可以縮到多小的冷門話題外,除了45nm製程和嶄新電路設計所帶來的驚人電力削減,這新版Cell BE處理器實在沒什麼好談的。

不過,預定2010年問世的2 PPE/32 SPE版本Cell BE,能否趕過Intel的「Larrabee」和Nvidia/AMD的新款顯示晶片,成為第一個抵達「單晶片1T Flops理論效能」里程碑的單晶片,與未來IBM採用Cell BE的QS系列刀鋒伺服器的應用潛力,絕對值得觀察。

UPDATE: 真正讓我好奇的,是隱藏在Cell背後的IBM先進製程發展路線,特別當IBM Power7確定是Heterogenerous Multi-Core Design時...

吹起LPIA進攻高效能嵌入式市場號角的Atom「Silverthorne」

市場定位

攜帶型連網裝置(MID

製程技術 / 電晶體數目

45nm / 4700

處理器核心運作時脈

1.86GHz(最高)

晶粒面積

25平方公釐

標準設計功耗

最高2W(0.6W~2W)

腳位 / 封裝面積

Micro-FCBGA8441 pin/ 14mm×13mm

處理器核心數 / 執行緒數

1核心 / 2執行緒

快取記憶體

L1

32kB指令 / 24kB資料

L2

512kB

系統匯流排

100MHz / 133MHz(GTL or CMOS)


重點如下:

一、 Silverthorne採用代號「Bonnell」的新核心,由Intel位於德州奧斯汀的研發團隊從2004年底開始進行開發工作的成果。Bonnell意指奧斯汀市僅750英呎的最高景點,暗示其「定位」,也顯示Intel為日後「超級多核心x86」造橋鋪路的企圖

二、 Silverthorne桌上型衍生版本叫「Diamondville」,因啟動較少的電源管理功能,且同時兼具單核心與雙核心版本,TDP為4W/8W,Intel未來「NetTop」廉價個人電腦的基礎。

三、 為了縮短研發時間「強化Time To Market」,Intel採取高度模組化的核心電路設計,僅9%電路是專門設計,其餘皆為Intel內部的標準電路資料庫。


Centrino Atom平台/Atom處理器和相關應用,堪稱本屆春季上海IDF(Intel Developer Forum)的主角,仔細想想,筆者應該不必再寫什麼不著邊際的廢話。該講的,這專欄過去兩年都統統寫完了。

順便一提:你知道每一顆Atom處理器的生產成本有多低嗎?答案是「6美元」左右,包含製造、包裝、運送等開銷在內,也才8美元,因為一片12吋晶圓可切割出2700顆Atom,良率90%時就高達2500顆。

筆者兩年多前曾在本專欄寫過一句話「如果真讓x86征服世界,那還真是計算機工業界最大的悲劇」,現在看來,LPIA似乎讓人類朝悲劇邁向了一大步-即使短期內Intel仍難以威脅ARM的市場。

UPDATE: 我相信每個看過Intel AVX的人,都會有類似的想法...唉。

文末終感:「終わりの始まり」的到來?

「終わりの始まり」取自ひぐらしのなく頃に解動畫版第十六話的標題,譯為「終結的開始」,行文至此,有感而發。

現在還說不太上來筆者真正的感受,但從最頂峰的Tukwila到最入門的Silverthorne,眼睜睜看著Intel氣勢磅礡的完整產品線,四處入侵不同的市場,不提既有穩固的x86伺服器/個人電腦/筆記型電腦,挑戰繪圖市場的Larrabee,還包含了System On Chip解決方案的「Tolapai」、消費性電子導向的「Canmore」等,或許,Intel追求的「Full Dominance」,徹底征服整個市場,早已伸手可及,為時不遠矣。

最後,誰能阻止Intel呢?期待藍色巨人的「Power Everywhere」吧,如果還有那一絲一毫可能性的話…
下期預告:IEEE ISSCC 2008的遺珠之憾Intel「Nehalem-EP」與AMD「Shanghai」

一言以蔽之:這兩款晶片將是下期的主角,然後,結果Nehalem單一核心還是內建了256kB L2快取,整體快取階層簡直和AMD K10一模一樣…一月號專欄的規格表也得修正了。

終於回到Oregon Hillsboro懷抱的P6

市場定位

雙處理器伺服器、工作站、高階個人電腦

製程技術 / 電晶體數目

45nm / 73100

處理器核心運作時脈

已知最高3.2GHz

晶粒面積

246平方公釐(13mm×18.9mm

標準設計功耗

最高130W

封裝腳位

LGA1366Socket B

處理器核心數 / 執行緒數

4核心 / 8執行緒

快取記憶體

L1

32kB指令×4 / 32kB資料×4

L2

256kB×4

L3

8MB×1

記憶體

3通道DDR3-800/1066/1333

QuickPath Interconnect系統匯流排

2 Full-width 6.4GHz(雙向總51.2GB/s


在AMD 2008 Roadmap死而復生的上海

市場定位

8/4/2處理器伺服器、工作站、高階個人電腦

製程技術 / 電晶體數目

45nm / 7500

處理器核心運作時脈

已知最高2.7GHz

晶粒面積

243平方公釐(13.7mm×17.8mm

標準設計功耗

最高105W

封裝腳位

Socket 1207Socket F

處理器核心數

4核心

快取記憶體

L1

64kB指令×4 / 64kB資料×4

L2

512kB×4

L3

6MB×1(Exclusive)

記憶體

2通道DDR2-667/800

HyperTransport系統匯流排

3 HT1(雙向總24GB/s


[特別聲明]本文參考資料

本期內容與未來「台灣水電工」專欄的相關文章,均參考以下IEEE ISSCC 2008論文(依發表順序):

˙A Third-Generation 65nm 16-Core 32-Thread Plus 32-Scout-Thread CMT SPARC® Processor
˙Implementation of a Third-Generation 16-Core 32-Thread Chip-Multithreading SPARC® Processor
˙Migration of Cell Broadband EngineTM from 65nm SOI to 45nm SOI
˙A 65nm 2-Billion-Transistor Quad-Core Itanium® Processor
˙Circuit Design for Voltage Scaling and SER Immunity on a Quad-Core Itanium® Processor
˙A Sub-1W to 2W Low-Power IA Processor for Mobile Internet Devices and Ultra-Mobile PCs in 45nm Hi-K Metal Gate CMOS
張貼留言