星期日, 12月 14, 2025

[微言大義500字] 萬物齊缺,自力救濟

前言:無論於公於私,最近真的被DRAM缺貨 (附贈SSD/HDD漲價) 搞得很厭世,

今天這篇如果沒有被嫌棄不夠水準、難登大雅之堂的話,歡迎各位註明來源轉載

萬物齊缺,自力救濟

看到Micron的Crucial品牌要退出市場,讓我赫然想起我現在的老舊Windows 10桌機裡面裝的是四條Crucial的DDR3-1866 8GB (XMP 1.3規範)。對,你的眼睛沒看錯,我到現在還在用DDR3,昨晚才跟某死黨又土匪了四條DDR3-1600 8GB,準備用來搭配備用的ASUS Z170M-3 D3主機板,確保這台電腦還可以起碼再戰一年。


假若真的被迫升級Windows 11 (雖然已經有躲過TPM檢查的安裝手段,但我不想這樣做),也需要配合手邊兩條閒置的16GB DDR5-5600 SO-DIMM,去找一張Mini-ITX主機板,SSD和HDD也必須沿用現有的東西。在明年的這個時候打造裝滿256GB DDR5的Nova Lake桌機?我現在連想都不敢想。

為何這麼麻煩?因為現在的DRAM SSD HDD價格實在太瘋狂太離譜了。這波怎麼看都是過度投資的AI基礎建設軍備競賽,到現在都還看不到退燒的跡象,一路燒到2028年大概也不會讓人感到任何一絲一毫的意外。相信任何工作上跟這些東西扯上關聯者,從採購到生管到業務到PM到可以想到的所有人,最近都會從他們身上看到無數厭世的神情,包含我自己。

說到這個,難得Intel在個人電腦與伺服器的產品線競爭力總算略有起色,卻很不幸的撞上這一波嚴重衝擊終端產品銷售的缺貨潮。要看到雲端巨頭的AI賽豬公出現泡沫化,總得要有人先第一個倒下才行,而獲利能力倍受質疑、剛推出GPT-5.2卻市場反應冷淡的OpenAI,或許有機會率先上演火燒連環船的大戲。

關於Google最終能否戰勝OpenAI這件事,還是ㄧ句老話,決定勝負的不是單一技術,而是整個「產品線組合」,訂閱Google AI Pro,就有2TB Google Drive儲存空間、在Gmail/Docs等應用程式內使用AI,以及更高額度的圖像/影片生成、NotebookLM等進階功能,然後原本Google One 2TB的用戶,每個月只要多花300塊台幣,就有家庭號六個人份的Gemini Pro可用,除非OpenAI的性能特別優異,否則我還真的想不太出來OpenAI到底要怎麼跟Google對打。

最後OpenAI的命運將是被nVidia併購?絕對不會,應該不會,也許不會,希望不會。

延伸閱讀 (主要是筆者在癮科技的著作):

本次沒有推薦的延伸閱讀,頂多就筆者自己DIY個人電腦的回憶吧。

硬科技:光華電腦DIY回憶錄之人生第一台電腦

硬科技:光華電腦DIY回憶錄之Pentium超頻之路

硬科技:光華電腦DIY回憶錄之3張Socket 7主機板的故事

硬科技:光華電腦DIY回憶錄之Matrox顯示卡那短暫而美好的回憶

硬科技:光華電腦DIY回憶錄之邁向第六世代x86處理器

硬科技:光華電腦DIY回憶錄之3dfx沒落與NVIDIA崛起

硬科技:光華電腦DIY回憶錄之科科科科的淫笑卡... 音效卡(上)
硬科技:光華電腦DIY回憶錄之科科科科的淫笑卡... 音效卡(下)

硬科技:光華電腦DIY回憶錄之最吵的硬碟 複習一下古老的Parallel ATA
硬科技:光華電腦DIY回憶錄之最吵的硬碟 以「火球」和「鑽石」為起點的漫長旅程
硬科技:光華電腦DIY回憶錄之最吵的硬碟 SCSI實在不是人人都玩的起
硬科技:光華電腦DIY回憶錄之最吵的硬碟 初遇IBM硬碟
硬科技:光華電腦DIY回憶錄之最吵的硬碟 邂逅姍姍來遲的WD
硬科技:光華電腦DIY回憶錄之最吵的硬碟 SATA來臨前的黑暗期
硬科技:光華電腦DIY回憶錄之最吵的硬碟 不小心用了SATA該怎麼辦
硬科技:光華電腦DIY回憶錄之最吵的硬碟 讓人極度無言的SATA陣痛期
硬科技:光華電腦DIY回憶錄之最吵的硬碟 在SSD征服系統碟前那稍縱即逝的萬轉迅猛龍

硬科技:光華電腦DIY回憶錄之宿網狂抽猛送的Intel網路卡(上)
硬科技:光華電腦DIY回憶錄之宿網狂抽猛送的Intel網路卡(中)
硬科技:光華電腦DIY回憶錄之宿網狂抽猛送的Intel網路卡(下)

光華電腦DIY回憶錄之吵死人的櫻桃系機械式鍵盤

光華電腦DIY回憶錄之那些在暗暗的房間裡照亮身體的螢幕

硬科技:光華電腦DIY回憶錄之吱吱叫的Logitech滑鼠

硬科技:光華電腦DIY回憶錄之電腦升級好難

星期日, 12月 07, 2025

[微言大義500字] 你們這些狂蹭TPU的外行人到底是有什麼毛病

前言:這陣子Google股價又創新高,新的模型Gemini 3屌打其他LLM,加上TPU敘事,直接走出獨立行情,結果就是一連串的作文比賽,一堆完全不懂只能靠AI瞎掰的人腦當機亂碼。只要稍微做點功課,去回顧Google自從2015年上線 (從研發到部署大約起碼倒推15個月,也就是2013年底到2014年初開案) 至今的歷代TPU,就不會做出「TPU只能做推理」的白痴假設與智障結論。這段日子一堆人狂蹭TPU寫出的東西讓我實在很無言。

今天這篇如果沒有被嫌棄不夠水準、難登大雅之堂的話,歡迎各位註明來源轉載

你們這些狂蹭TPU的外行人到底是有什麼毛病

問題ㄧ:為何現在越來越多錯誤連篇卻又看似非常專業的外行文章在網路上四處流竄?

老師要報明牌、分析師要賺錢、網紅要蹭流量,TPU就成為最佳對象了。其實這些人只是想要騙流量,以前寫不出來,現在反而靠AI可以瞎掰出乍看之下有模有樣的文章,反正大概隨便看了幾篇文章,Copy到AI後,請AI重寫,正所謂 "Garbage In Garbage Out",原始資訊是錯的,出來的也就是錯的,結果就是錯誤言論會不斷的擴張,但還是一堆人傻傻的繼續按讚。


問題二:Google TPU的研發是起始於2016年?

大錯特錯,初代TPU早在2015年就開始上線服役了 (還記得AlphaGo嗎?),研發開案更可倒推超過15個月的時間,也就是2013年底至2014年初這段期間,然後繼2016年Google I/O的首次介紹,Google在2017年的HotChips 29進一步揭露其第一代和第二代TPU的技術全貌


TPU只是Google自己針對自己「內部AI需求」而量身訂做的ASIC,將其稱之為完整的 "Cloud TPU" 更能精確表達其存在的意義,AWS的Trainium/Inferentia家族、微軟Maia與Meta MTIA也是類似的東西,真的沒什麼好特別去吹捧的,跟nVidia/AMD的GPU (或著也得加上Intel) 也不存在正面的競爭關係


問題三:TPU只能做推論,不能做訓練?

2017年的第二代TPU之所以長得有點像GPU,就是為了「訓練」。Google並且在2020年HotChips 32的TPU議程標題就大大的寫著 "Google's Training Chips Revealed: TPUv2 and TPUv3",結果臉書上就跑出長篇大論廢話連篇故弄玄虛「TPU到底能不能做訓練」的大師級鉅作。


問題四:Google TPU是為了Gemini而生?

Google很久以前就公開講過:幾乎所有產品和研發都會用到TPU。對Google來說,TPU是作為自研自用的infrastructure,根本目的在於降低自己的營運成本,Gemini說穿了就只是搭上這台名為TPU的順風車,將Gemini跟TPU硬湊在一起只是張飛打岳飛


Google這間公司厲害的地方在於其infrastructure的成本可以比別人低很多很多非常多,Luiz André Barroso那本Datacenter as a Computer (已經到第三版了) 就象徵著這間公司的思維。Google也一直給我一種很 "Intel" 的感覺,他們似乎會以如何將infrastructure的價值發揮到最大作為思考的出發點,跟Intel過去那套製程至上的邏輯有點像。希望這只是我個人的錯覺,扯遠了。

問題五:GPU是圖形處理專用,所以晶片上有非AI計算用的額外負擔?

這是最近某些拼命吹捧TPU的文章經常冒出來的外行論調,事實上,nVidia自從2020年的Ampere開始,就沒有graphics/rasterization/display engine,專門就是用來計算用的,也許將運算用GPU重新命名為「平行處理應用加速器單元 (PPAAU, Parallel-Processing Application Accelerator Unit)」會更加的貼切。會寫出這種文章的人根本就完全不做功課,對於GPU的發展更是完全外行。

最後一個問題:Meta難道只是跟Google「買晶片」嗎?

Meta和其他CSP引進Google的TPU絕對不會只是「買晶片」,商業模式也不可能是一般的買賣,而是某種形式的策略結盟,Google會提供的一定是一整套infrastructure方案,包含已經預先訓練的模型,應用方式也一定比GPU受限。直接以晶片規格的角度去硬扯nVidia受到TPU威脅,其實非常的見樹不見林。別的不說,對於一般企業,先不提長期對CUDA生態系統的依存度,他們怎麼可能玩的起9216顆TPU v7的Pod和OCS?畢竟在AI的時代,GPU的全名已經是 "General Purpose Unit" 了

你對最近這波猛蹭TPU的瘋狗浪有什麼感想?

「黃鐘毀棄,瓦釜雷鳴」實在是「AI工業革命」帶來的後遺症啊。

延伸閱讀 (主要是筆者在科技新報癮科技的著作):

科技新報
最低寫入延遲,特斯拉 Dojo 超級電腦的獨家 TTPoE 傳輸層協定
Hot Chips 2024》矽光子與運算晶片整合的「影武者」,一窺博通資料中心技術
[未發表] Hot Chips 2024》Nvidia包圍網:執行微軟OpenAI模型的Maia 100與決定臉書推薦內容的MTIA

癮科技

硬科技:一窺Google TPU全貌 見證雲端霸主在AI的發展
淺談GPU到底是什麼(上):不同的運算型態
淺談GPU到底是什麼(中):兼具SIMD與MIMD優點的SIMT
淺談GPU到底是什麼(下):走向汎用化的GPGPU
硬科技:從地球模擬器到Summit:被GPU顛覆的超級電腦賽豬公
硬科技:科科們來瞧瞧一窩蜂猛衝人工智慧的勇者們
硬科技:斯斯有2種 那人工智慧晶片有幾種?
硬科技:GPU虛擬化為何超級難搞(上)
硬科技:GPU虛擬化為何超級難搞(中)
硬科技:GPU虛擬化為何超級難搞(下)

星期日, 11月 30, 2025

[微言大義500字] 從Diamond Rapids取消SMT來看看什麼叫做「蘋果病」

前言:這週末比較忙碌,所以拖了兩天才寫這篇應該不會超過500字太多的短文。

今天這篇不是為了TPUser而寫,但如果沒有被嫌棄不夠水準、難登大雅之堂的話,歡迎各位註明來源轉載

從Diamond Rapids取消SMT來看看什麼叫做「蘋果病」

最近經濟學人冷飯熱炒為了外銷而壓抑匯率的「台灣病」,導致一堆自認為台派的大恩大德吵得不得開交。但無論是台灣是否罹患過度仰賴科技產業的「荷蘭病」,還是在十八世紀以港口為主要傳播點而擴散至整個歐洲的梅毒—法國人之稱為義大利病,德國人則稱之為法國病,在計算機工業倒是有一種病傳染的相當厲害,那叫做「蘋果病」,只要是Apple做的,就一定都是對的,不論究竟是否合理,而且這「症頭」偏偏就是Intel特別嚴重

從東施效顰Macbook Air強迫大家做Ultrabook摧毀了Wintel筆電的多樣性,不計代價的打造出一次性的Lunar Lake只為了追求「比肩Apple Silicon」的精神勝利,一路到荒唐的取消Xeon 7 "Diamond Rapids (Panther Cove X核心)" 的SMT (HyperThreading) 後又要「在下一代找回來」,這間公司只要ㄧ碰到Apple就三太子上身,身為資深果粉的Pat Gelsinger那不到五年的CEO任期似乎又讓這病情變得更加無藥可救

網路上亦不乏飽學之士,一看到Apple的所作所為,就馬上拋棄理智和邏輯拼命歌功頌德,像什麼「Apple即將進軍伺服器領域」、「SMT只是無用的東西」、「假若Apple晶片團隊獨立成一間公司絕對天下無敵」之類的高見紛紛如雪花般的灑滿整個SNS,這信仰別說是宗教,連邪教搞不好都沒這麼虔誠。

俗話說「橘逾淮而為枳」,Apple Silicon (A系列,M系列) 之所以不採用SMT,主要是因為「沒有需要」並且產品應用場域就是要兼顧低功耗與反應在應用程式敏捷度的單執行緒效能,但這對於追求輸出率的主流伺服器來說,卻是截然不同的考量。

結果Intel讓蘋果病感染到其「現金母牛」Xeon,讓SMT反過來變成AMD EPYC和Ryzen的優勢,算上AVX-512、FPGA和慢慢放著爛的Ethernet相關產品線加上漸漸沒有存在感的SmartNIC,充分印證「Intel自己丟掉的東西總是成為AMD用來打自己的武器」這條讓人感到極度無言的鐵律。所謂自作孽不可活大概就是這麼一回事。

嗯,這次總算沒有超過500字太多了。

延伸閱讀 (主要是筆者在科技新報癮科技的著作):

IBM Power 9處理器解析 地球上最強大泛用處理器
硬科技:HotChips 32的新牙膏 IBM Power10與z15篇
硬科技:歷史上著名的逆轉秀IBM Power5
硬科技:AMD同時多執行緒SMT4是什麼?圖解CPU各種核心與執行緒關係
從各種角度檢視 Apple Silicon M1 的優劣勢與真正造成的影響
硬科技:Apple M1能否證明SMT是無用的東西
從 M1 Pro 與 M1 Max 的暴力美學,回顧構成蘋果晶片研發團隊骨幹的 P.A. Semi 與 Intrinsity
高通併購 Nuvia 背後:Apple Silicon 校友會引爆的晶片戰爭

星期四, 11月 20, 2025

[微言大義500字] 淺談Intel的Nova Lake:APX與AVX10.2,與遺珠之憾x86-S

前言:Intel的新一代桌機CPU "Nova Lake" 總算終結了歹戲拖棚多年的「大小核之亂」,讓Intel的CPU終於再度成為筆者下一台桌機的選項 (雖然筆者從不覺得桌機需要大小核這種邪門歪道),不過看在現在記憶體和SSD價格因為缺貨亂漲的份上,現在這台只能跑Windows 10的老機器,大概起碼等撐到2026年10月14日延伸性安全更新 (ESU) 結束之後了。

今天這篇不是為了TPUser而寫 (雖然Nova Lake也應該會同時應用在筆電,Intel似乎要在Core Ultra 400系列統合桌機和筆電),而是補上科技新報專欄之前關於APX與AVX10的介紹,但如果沒有被嫌棄不夠水準、難登大雅之堂的話,歡迎各位註明來源轉載

順便一題,這篇文章是使用Google Gemini產出初稿,並且有高達80%的可用內容,我只能說,搞不好OpenAI真的會步上Netscape的後塵

淺談Intel的Nova Lake:APX與AVX10.2,與遺珠之憾x86-S

指令集架構 (ISA, Instruction Set Architecture) 作為電腦的基本「語言」,軟體與硬體之間的界面 (Interface)。Intel新一代桌面CPU Core Ultra 400系列 "Nova Lake" (與新一代伺服器的Xeon 7 "Diamond Rapids") 將是x86指令集架構發展史上的重要里程碑,其亮點在於支援AVX10.2指令集與APX (Advanced Performance Extensions),不僅提升性能,更是Intel為了現代化x86架構、解決混核架構的指令集碎片化問題,以及對抗ARM架構高能效快速產品研發的雙重優勢,所做出的「關鍵戰略調整」,或著說「補破網」也並不為過。

這兩項技術的意義,可以從以下三個層面解讀。

AVX10.2:結束大小核的「指令集分裂」

自第12代Core "Alder Lake" 引入混核 (Hybrid Architecture) 以來 (講的更嚴格一點,更早是2020年的實驗性產物 "Lakefield"),由於小核E-Core不支援AVX-512,導致Intel被迫在消費級產品中屏蔽該功能,造成了指令集的碎片化,也激起開發者的不滿,如知名的Linux之父Linus Torvalds

統一向量指令集:繼大核限定的AVX10.1 (起自於Xeon 6 "Granite Rapids" 家族),AVX10.2允許大核P-Core和小核E-Core支援相同的512 bit SIMD指令集。雖然小核E-Core的內部運算單元可能被限制在256 bit寬度,而P-Core可馬力全開跑512 bit,但軟體開發者只需編寫一次代碼,即可在兩種核心上運行。至於為何Intel過去不乾脆師法AMD,透過「偷吃步 (資料路徑砍半)」的方式去在E-Core實做AVX-512,繞了AVX10這個遠路,其背後原因就不得而知了,或許只是想趁機整頓AVX-512各支系吧。

強化AI與浮點運算:這讓Nova Lake的所有核心都能參與高強度的AI推論與科學運算,釋放了混合架構的完整潛力,最起碼,不會像過去那樣活活搞死自己

APX:x86指令集架構的「現代化」與能效革命

APX的引入被視為x86指令集架構數十年來最大的變革之一,將通用暫存器 (GPRs) 的數量從x64的16個增加到32個,並擴增第三個運算元 (a = a + b變成a = b + c) 以提高暫存器使用效率,使CISC的x86更接近RISC的樣貌

減少記憶體存取: 長期以來,x86因通用暫存器數量少於ARM等RISC架構,導致CPU必須頻繁地將資料在暫存器與快取/記憶體之間搬運 (Memory-Intensive),或著需要更複雜的非循序指令執行 (OOOE) 核心。APX解決了這個痛點,大幅減少了對記憶體的存取次數,並更便於設計更高執行效率的核心微架構。

提升能效比:減少資料搬運意味著更低的功耗和更高的執行效率。據Intel的說法,這能提升約10%的整數運算性能,且無需額外的晶片面積或功耗,這對於提升筆電續航力和伺服器密度至關重要,更有助於打造出更貼近ARM架構的低功耗產品

因為Intel已經與AMD攜手合作統一x86指令集架構與生態系統,如果沒有意外的話,AMD後續應該會在2027年的Zen 7世代對應AVX10與APX,其「New Matrix Engine」也應該是相容Intel的AMX。但在這之前,軟體廠商「有效利用」新增通用暫存器和第三個運算元的時程,才是決定使用者何時能享受到其好處的關鍵。

戰略意義:延續x86指令集架構的壽命

Nova Lake支援AVX10.2與APX這兩項技術在於證明x86架構仍具有強大的生命力與演進空間。Intel透過APX彌補了暫存器不足的短板,並透過AVX10.2整理了混亂的指令集生態。這標誌著 Intel正試圖擺脫舊時代包袱,打造一個更精簡、高效且「對開發者 (包含CPU研發人員) 友善」的x86生態系

遺珠之憾:純64位元的x86-S

AVX10APX更早一年被提出的「純64位元」x86-S (x86 Simplification) 是Intel對於x86架構現代化願景的最後一塊拼圖,雖然它的關注度不如AVX10或APX高,但對於精簡架構具有重大意義。如果說APX是為了「增肌」(增加暫存器提升效能),AVX10是為了「整骨」(統一指令集),那麼x86-S就是為了「排毒」徹底移除x86架構累積了40多年的歷史包袱,簡化晶片設計,並且減少驗證的複雜度,讓x86處理器更能快速的 "Time To Market"

x86-S的主要特性如下。

移除16 bit與32 bit的開機模式:處理器通電後直接進入64 bit模式,省去了模式切換的握手過程,理論上能縮短系統啟動時間。目前的x86處理器在開機時,仍然會像1978年的Intel 8086處理器一樣,先進入16 bit的「真實模式 (Real Mode)」,然後切換到32 bit的「保護模式」,最後才進入64 bit的「長模式」,這個過程繁瑣且過時。

刪除過時包袱:取消節區 (Segmentation) 記憶體定址,連帶移除了如Ring 1/Ring 2這種現代OS根本不用的權限層級,以及老舊的I/O指令。

依然可以運行32 bit Ring 3應用程式:現代64 bit作業系統 (如 Windows 11) 透過相容層來執行 32 bit軟體,x86-S保留了這種能力。在x86-S架構下如何處理舊軟體相容性的問題,核心觀念可以總結為一句話:「應用程式 (Ring 3) 幾乎不受影響,但驅動程式與舊系統 (Ring 0) 必須依賴虛擬化」

考量到工業電腦產業與嵌入式應用的相關領域,依然存在大量老舊軟硬體,以及貿然全面導入x86-S可能又會再次上演親手奉送客戶給AMD的風險,短期內應該看不到其成為現實,或許這還需要Intel與AMD先有共識,再跟微軟和Canonical等軟體公司私下講好吧。

到頭來,我還是寫了遠遠超過五百字....

下週來談談Intel取消8通道記憶體版本的Diamond Rapids-SP,以及Intel要在下一代Xeon "Coral Rapids"「恢復SMT (HyperThreading)」這件蠢到實在不知道該怎麼形容的蠢事。

延伸閱讀 (主要是筆者在科技新報的著作):