星期日, 6月 03, 2007

Intel果然瘋了,「Larrabee」原來是這麼一回事啊!

資料來源:ComputerBase(德文)原始pdf連結

「Cell的影響還真大啊!」相信是每個人看過後的唯一感想。看來我PC Shopper的本期專欄不怕沒題目了。

簡而言之,Intel想用一個汎用化的many in-order core x86設計,去同時滿足HPC和顯示晶片的需求。

順道一提,Intel也「順便」公佈了Gesher(已改名為Sandy Bridge,剛好就是Gesher一字在希伯來文的原意)的資料,果然大公司都是沒有秘密的,雖然那規格怎麼看都比較像Nehalem....

17 則留言:

匿名 提到...

除了texture sampler之外沒看到別的fixed function unit,難道AA、vertice setup等等都要用軟體硬上?夠猛...

我覺得不會是傳統的顯示卡....

Eji的碎碎念 提到...

其實GMA-X3000已經再用US搞Triangle setup了,我覺得這是想規避一些專利的關係,這邊是GPU廠商的優勢....

1TFLOPS的話,明年G9x就達得到了,這是兩年以後的東西,到底有多少競爭優勢還得觀察。

molesterwaterball 提到...

硬體是一回事,我更好奇Intel的軟體能不能跟上來,否則使用x86的唯一好處就不見了。

匿名 提到...

1TFLOPS 是一回事,用多少電晶體做到 1TFLOPS 又是另外一回事,況且這東西並不只用來做顯示之用,應用層面更廣,要求的 RAS 也更高,純粹拿顯卡來比意義不大,比較類似 CELL 的幾何加速卡,與其跟顯卡比,不如等看 IBM 或 AMD 那邊會不會有對應的方案出來.

Eji的碎碎念 提到...

我是覺得AMD就算了,IBM早就把方案丟出來了(Mercury的CELL-AB),也排了2010年的32SPE版,相較之下顯然Larrabee才是回應吧。只是Larrabee看起來是對Fusion的回應,然後CELL根本就無意打進x86市場裡面而已....

這東西目前想到的是絕佳的Transcode卡XD

匿名 提到...

Mercury 的方案太貴,要進到民生用的可行性太低,現有 SPE 的性能其實有許多地方可以改進,單純的增加到 32 組並不是很好的方案,架構應該會再有些修改,這都要看之後 IBM 要怎麼做了,不過如果純指 Cell 來說的話,S T兩家也能推出這方面的方案,只是我想可能性不是太高就是。

匿名 提到...

如果從電晶體方面來思考會較有趣些,16 core 32nm,單一 core Intel 願意做到多少功能,如果一個 core 一億電晶體加起來17~18億應該是跑不掉的,但是就算做到這麼大在 windows 常用的 single thread 動作下這東西仍無法跟 AMD 的產品競爭,所以我想這並非是對於 Fusion 的回應,畢竟應該沒有人會想在 windows 上面用這東西,既貴性能也不好

Unknown 提到...

身為 Intel 內部高度參與在與此計畫十分相關的另一個計畫的 architecture team, 不方便評論文章內容與正確性, 所以只是想提醒你, Larabee 跟 Cell architecture 沒有太大關連性, 這是 n 顆 P54C core 組成的對稱式結構. 另外, gesher 是希伯來文 bridge 的意思, 不是 Sandy Bridge. 前面加個 Sandy 是因為 Intel 還有幾個 xx bridge 的 code name.

molesterwaterball 提到...

這樣我近兩年來的疑惑都不見了,真是太感謝了。

說實在話,去年在SF,Intel給我看用FPGA實作的P55C,以及聽到「Gesher用的core不會高過P6」,就覺得怪怪的。

Intel最近用到bridge的code name的確很多,Weybridge就是一個例子,還好不是用lake結尾,要不然問題會更多。

Eji的碎碎念 提到...

CELL的民生用方案很明顯就是PS3.... _A_
Mercury只是做給自己用的,他們在做的solution畢竟是非民生用,上頭1GB XDR和4GB DDR2、還有IBM的新南橋都不便宜。

話說我覺得估in-order x86 core + SSE2+估到100M電晶體實在太誇張了,10~20M還差不多,扣掉Local Store之後SPE也差不多是這個數字。

eDP CELL除了die size大家都很不滿之外,其餘SPE部份還是有做一些refine,性能有明顯好起來.... 但是開eDP代價實在太低了,可以感覺到SONY用的CELL真的是下位機種。

匿名 提到...

估到 100M 是針對前述的 Fusion 來說的,2009 年 AMD 的 Fusion main core 必然會超過這數字許多,如果 Larrabee 要用來應對 Fusion 單一 core 不到 100M 根本沒有競爭的空間,可想而知 Intel 自然不可能會用這東西來跟 Fusion 來競爭,以現階段來說其對手我想主要還是 IBM 的 Cell HPC 才是。

另外 in-order x86 core,SSE2+,4Thread,SIMD-16,如果只做成跟 SPE 同樣規模似乎不太可能,別忘了 Cell 有 PPE 來支撐其整體運算的動作,架構也非 x86,如果 Intel 把單一 core 作的如此的簡陋,那要用這東西去做 HPC 其性能可能不只一個慘字可以形容。其實不說做 10M~20M,就算做的跟 PPE 一樣大在 x86+in order 之下其表現也好不太起來,別忘了用 PPC 架構的 PPE 其性能也是爛到不行的。

eDP CELL 對 PS3 來說應用層面並不大,頂多是解 SACD 會好些而已,如果 SCEI 當時真要對 Cell 進行加強,我想他們應該會優先把 PPE 的功能多擴充一些,而不是對 SPE 這一群難搞的東西進行加強,況且對 SONY 來說 Cell 如何能做到低耗電,低成本才是最重要的事。

molesterwaterball 提到...

基本上,拿Cell的SPE和Larrabee的P54C等級core比較,是很奇怪的事情,一個是效能不佳的PPC去控制八個DSP,一個則是對稱多核心設計,差別很大。

而且Larrabee的設計精神很像Sun的Throughput Computing,用龐大的core與multi-threading能力去hide memory latency,進而達成很高的throughput。如果Intel真的在乎single thread效率,就不會選擇用十多年前的P54C。

我是很難想像要怎麼把P54C的電晶體擴張30倍到100M啦....

Eji的碎碎念 提到...

我是覺得CELL不是"加強",而是"為了產品區隔而削弱"。
光eDP CELL看起來幾乎只用了一點零頭補正就達到全速DP這點就很明顯了,而且對HPC來說記憶體容量也很重要,所以我自己認為eDP CELL最主要的改進還是在於記憶體支援容量,剩下的和Quadro vs GeForce是差不多的事情。

至於single thread性能,GPU本來就是個single thread性能貧弱的東西,Fusion有原始的x86 core + shader core,Larrabee是shader core like的那邊,強力的x86 core有Gesher在撐,我是不知道為什麼Larrabee的single thread性能可能差就非補不可,用途不一樣啊。(講白一點就是Fusion認為現在就該要放在die裡面,Intel則認為不見得而已,以後的話再說)

CELL的PPE是很貧弱,但是它本來就已經是針對console這個平台設計的第一個實做,後面CELL B.E.這整個衍生架構出現變化的可能性多得是,至少原始結構裡面只設定"PowerPC core + SPE"的結構,那個PowerPC core的核心該長什麼樣子的靈活度是很大的,只是真的放了Power6 core進去的話就沒辦法放到PS3上,就這麼簡單的理由罷了。

PPE該不該強化,我覺得應該要回頭看這個應用環境到底需要多少single thread資源,因為其實SPE的thoughtput很明顯地夠大,但是程式要先能移過去;強化PPE的話會分掉PPE可用的資源,其實只是讓前面的陣痛期比較不會那麼痛楚而已,後面反而會限制自己的性能,而它是個沒有必要顧慮舊有軟體資源的環境,其實除了developer比想像中惰性強以外,CELL目前遇到的處境技術面反而沒想像中困難。

從CELL目前的die photo可以看得出來,PPE+512KB L2差不多就抵四個SPE,今天我們把PPE+8SPE換成2PPE+4SPE的話,我覺得和XBOX360就會變得很像了,那只怕狀況會更慘。

匿名 提到...

我是指 Intel 並不會拿這東西來做為對 Fusion 的方案,原因是做到 100M 都打
不贏了,更何況這東西不會做到 100M。

eDP CELL 其實比上一版要大上不少,DP
CELL 在 90nm 下是235nm,但 eDP CELL
在 65nm 上卻要 212nm,TDP 也只降低一
點。

至於 Larrabee 是否會跟其他 core 合體
這就是更之後的事了,畢竟連 Larrabee
都還沒生出來。

PPE 的強化並非指要多放幾個 PPE 進去,
以目前用的 PPE 來說就算堆到 5 個情況
可能也好不到那去,這東西浮點運算比 SPE
爛不說,整數運算也是一整個慘,別說陣痛
期的長短,就連要拿他來當 PPC 用都做不
到,原先本以為這東西能靠高時脈做到跟
PPC970 一樣的事,但很可惜的 PPC970
比他強多了,IBM 為了讓這東西能衝到這樣
的時脈,以及配合 SPE 的環境所以做了些
調整這沒話說,但如果一開始設計時能讓他
的功能接近 PPC970 一點,在一些使用上
會方便一些。

匿名 提到...

235mm 跟 212mm 筆誤......

molesterwaterball 提到...

提醒一下,HPC Cell電晶體數目是250M,只比Cell的241M多一點點,die size會這麼大應該是內部的interconnection太複雜、wire overhead太大的關係。

匿名 提到...

您好~
看到您的自介發現您似乎對伺服器方面研究頗深,在這邊想請教您關於伺服器平台演進的問題:請問intel伺服器平台是否有所謂的的演進歷程?其分別的代號又稱為什麼?可以在哪邊搜尋到關於伺服器平台架構發展的相關資訊呢?(很抱歉我的問題相當不專業因對此領域不熟悉,但目前急需要相關資訊,所以求助於像您這樣的專業人士,非常感謝您的幫忙)