星期日, 3月 28, 2010

[隨手亂畫] AVX: Sandy Bridge vs Bulldozer

執行AVX的效率,十之八九會決定這兩個微架構的勝負。比較有趣的地方是:

一、AMD Bulldozer是要兩個128 bit FMAC結合在一起,才能執行AVX256,兩個Core共用一個,換句話說,就算管線化,AVX256的Throughput也只有2 cycle。問題是:AMD的AVX實作支援FMA4,可以直接用單一執行單元搞定,而且理論上「當克服register dependency後,應該可以」同時執行兩個AVX128 Multiply-Add,或著AVX128與SSE混合的情況。AVX256的FMA拆成四個ROP大概也不是令人意外的結果。

二、Intel是每個Sandy Bridge核心都有獨立的AVX ADD、Multiply和Shuffle單元,號稱都可以1 Cycle Throughput,但Intel AVX不但已經取消FMA4,連Sandy Bridge也不會支援Fused FMA,可能要等到Haswell,當軟體實作FMA時,很可能會重演當年Pentium 3「最佳化SSE後只有8/5 Cycle」Throughput慘劇。

最後,只剩下兩邊的記憶體子系統效率,能不能滿足AVX吧。這點我倒是對Intel特別有信心。

星期四, 3月 25, 2010

[花丸幼稚園第六話] 粉紅色的 XD

稍縱即逝的一瞬間依舊逃不了本痴漢的法眼,呵呵呵呵呵呵呵呵~(男塾式笑容)

不過還有五話的進度要趕,唉唉唉。

星期一, 3月 22, 2010

[隨手亂畫] AMD K7/K8/K10: Since 1998

不過這兩張圖也暴露出Bulldozer一個疑點:有沒有FPU專屬的AGU可用?如果沒有,那就很歡樂了。

星期六, 3月 20, 2010

星期日, 3月 14, 2010

星期三, 3月 03, 2010

[Folding@Home] 飆分秀開始了

Folding@Home今天剛好滿一百天,靠著一張9800GT,每天平均開機16小時(中間曾經因當機或網路問題停擺數次,也碰過新年去日本七天時,都不關機拼命跑的情況),平均一天拿3300分。坦白講,這表現,我真的很不滿意,特別當每天看Taiwan Team排名時,老是被某些人拉開差距,加上嘗試用Thinkpad X301「助拳」仍毫無效果(基本上SU9400本來就...),所以腦袋就動到這顆一百天來一直閒閒沒事作的Q9450了。

我今天早上出門上班前,嘗試同時跑NVIDIA GPU、Win32 x86與SMP版,行文至此,好像已經拿超過5000分了,幾乎等同於我過去整天不關機的理論數字,整機耗電量應該也增加不到30W,代表 "Performance per Watt" 也比較好,在投入GF100家族前,我應該都會用這種方式來衝數據吧。

斤斤計較這種賽豬公的雞毛蒜皮小事,我到底在幹什麼啊!