星期日, 12月 07, 2025

[微言大義500字] 你們這些狂蹭TPU的外行人到底是有什麼毛病

前言:這陣子Google股價又創新高,新的模型Gemini 3屌打其他LLM,加上TPU敘事,直接走出獨立行情,結果就是一連串的作文比賽,一堆完全不懂只能靠AI瞎掰的人腦當機亂碼。只要稍微做點功課,去回顧Google自從2015年上線 (從研發到部署大約起碼倒推15個月,也就是2013年底到2014年初開案) 至今的歷代TPU,就不會做出「TPU只能做推理」的白痴假設與智障結論。這段日子一堆人狂蹭TPU寫出的東西讓我實在很無言。

今天這篇如果沒有被嫌棄不夠水準、難登大雅之堂的話,歡迎各位註明來源轉載

你們這些狂蹭TPU的外行人到底是有什麼毛病

問題ㄧ:為何現在越來越多錯誤連篇卻又看似非常專業的外行文章在網路上四處流竄?

老師要報明牌、分析師要賺錢、網紅要蹭流量,TPU就成為最佳對象了。其實這些人只是想要騙流量,以前寫不出來,現在反而靠AI可以瞎掰出乍看之下有模有樣的文章,反正大概隨便看了幾篇文章,Copy到AI後,請AI重寫,正所謂 "Garbage In Garbage Out",原始資訊是錯的,出來的也就是錯的,結果就是錯誤言論會不斷的擴張,但還是一堆人傻傻的繼續按讚。


問題二:Google TPU的研發是起始於2016年?

大錯特錯,初代TPU早在2015年就開始上線服役了 (還記得AlphaGo嗎?),研發開案更可倒推超過15個月的時間,也就是2013年底至2014年初這段期間,然後繼2016年Google I/O的首次介紹,Google在2017年的HotChips 29進一步揭露其第一代和第二代TPU的技術全貌


TPU只是Google自己針對自己「內部AI需求」而量身訂做的ASIC,將其稱之為完整的 "Cloud TPU" 更能精確表達其存在的意義,AWS的Trainium/Inferentia家族、微軟Maia與Meta MTIA也是類似的東西,真的沒什麼好特別去吹捧的,跟nVidia/AMD的GPU (或著也得加上Intel) 也不存在正面的競爭關係


問題三:TPU只能做推論,不能做訓練?

2017年的第二代TPU之所以長得有點像GPU,就是為了「訓練」。Google並且在2020年HotChips 32的TPU議程標題就大大的寫著 "Google's Training Chips Revealed: TPUv2 and TPUv3",結果臉書上就跑出長篇大論故弄玄虛「TPU到底能不能做訓練」的大師級鉅作。


問題四:Google TPU是為了Gemini而生?

Google很久以前就公開講過:幾乎所有產品和研發都會用到TPU。對Google來說,TPU是作為自研自用的infrastructure,根本目的在於降低自己的營運成本,Gemini說穿了就只是搭上這台名為TPU的順風車,將Gemini跟TPU硬湊在一起只是張飛打岳飛


Google這間公司厲害的地方在於其infrastructure的成本可以比別人低很多很多非常多,Luiz André Barroso那本Datacenter as a Computer (已經到第三版了) 就象徵著這間公司的思維。Google也一直給我一種很 "Intel" 的感覺,他們似乎會以如何將infrastructure的價值發揮到最大作為思考的出發點,跟Intel過去那套製程至上的邏輯有點像。希望這只是我個人的錯覺,扯遠了。

問題五:GPU是圖形處理專用,所以晶片上有非AI計算用的額外負擔?

這是最近某些拼命吹捧TPU的文章經常冒出來的外行論調,事實上,nVidia自從2020年的Ampere開始,就沒有graphics/rasterization/display engine,專門就是用來計算用的,也許將運算用GPU重新命名為「平行處理應用加速器單元 (PPAAU, Parallel-Processing Application Accelerator Unit)」會更加的貼切。會寫出這種文章的人根本就完全不做功課,對於GPU的發展更是完全外行。

最後一個問題:Meta難道只是跟Google「買晶片」嗎?

Meta和其他CSP引進Google的TPU絕對不會只是「買晶片」,商業模式也不可能是一般的買賣,而是某種形式的策略結盟,Google會提供的一定是一整套infrastructure方案,包含已經預先訓練的模型,應用方式也一定比GPU受限。直接以晶片規格的角度去硬扯nVidia受到TPU威脅,其實非常的見樹不見林。別的不說,對於一般企業,先不提長期對CUDA生態系統的依存度,他們怎麼可能玩的起9216顆TPU v7的Pod和OCS?畢竟在AI的時代,GPU的全名已經是 "General Purpose Unit" 了

你對最近這波猛蹭TPU的瘋狗浪有什麼感想?

「黃鐘毀棄,瓦釜雷鳴」實在是「AI工業革命」帶來的後遺症啊。

延伸閱讀 (主要是筆者在科技新報癮科技的著作):

最低寫入延遲,特斯拉 Dojo 超級電腦的獨家 TTPoE 傳輸層協定
Hot Chips 2024》矽光子與運算晶片整合的「影武者」,一窺博通資料中心技術
[未發表] Hot Chips 2024》Nvidia包圍網:執行微軟OpenAI模型的Maia 100與決定臉書推薦內容的MTIA

癮科技

硬科技:一窺Google TPU全貌 見證雲端霸主在AI的發展
淺談GPU到底是什麼(上):不同的運算型態
淺談GPU到底是什麼(中):兼具SIMD與MIMD優點的SIMT
淺談GPU到底是什麼(下):走向汎用化的GPGPU
硬科技:從地球模擬器到Summit:被GPU顛覆的超級電腦賽豬公
硬科技:科科們來瞧瞧一窩蜂猛衝人工智慧的勇者們
硬科技:斯斯有2種 那人工智慧晶片有幾種?
硬科技:GPU虛擬化為何超級難搞(上)
硬科技:GPU虛擬化為何超級難搞(中)
硬科技:GPU虛擬化為何超級難搞(下)

1 則留言:

molesterwaterball 提到...

後來有媒體朋友自己用AI生出了這篇內容,我只能說同樣使用AI工具,最後決定品質良窳的還是那顆人類的大腦。

Google TPU 與 NVIDIA GPU不是競爭關係 

生成式 AI 帶動全球算力需求暴增,Google TPU 近期再度成為討論焦點,不少市場評論直指 TPU 將「威脅 NVIDIA GPU」。然而多位半導體分析師直言,這樣的討論其實方向錯誤,原因在於 TPU 與 GPU 在架構、目的與市場定位上根本不是競爭關係。TPU 自始至終都是 Google 針對自家 AI 工作負載打造的特殊 ASIC(Application-Specific Integrated Circuit),從未被設計成向全球市場販售或普及的產品。

TPU 是 Google 自用 ASIC:只解 Google 的題,不解市場的題

Google TPU 自 2015 年推出以來,核心目的便是加速 Google Search、廣告推薦、YouTube、Gemini 模型等內部工作負載。為此,TPU 採用大量矩陣乘法與 systolic array 設計,針對 Google 自家模型做深度優化,能帶來極高的能效比,但也形成天然限制:

* 不適合執行多樣化模型
* 不支援廣泛框架和工具鏈
* 無法滿足不同企業端的客製化需求
* 外部開發者使用門檻高
* 僅部署於 Google Cloud 自家資料中心

換言之,TPU 是 **Google 的「特殊零件」**,非面向全球 AI 市場的通用產品,也並不參與 GPU 所在的商業賽事。


四大雲端皆自研 ASIC:TPU 與 AWS Trainium、Meta MTIA 本質一致**

外界常把 TPU 等同「Google 版 GPU」,但這並不符合事實。近年,亞馬遜 AWS、Meta、Microsoft 全都推出自家 ASIC,目的高度一致:

* 降低 GPU 採購成本
* 提升部分工作負載的能效比
* 減少對外部供應鏈依賴
* 強化雲端平台差異化

例如 AWS 推出的 Trainium、Inferentia,Meta 推出的 MTIA 加速器,以及 Microsoft 的 Athena(MAIA)ASIC。這些晶片都只在自家資料中心使用,也沒有要取代 NVIDIA GPU。

產業人士指出:「**雲端巨頭做 ASIC,是為了自己,不是為了市場。ASIC 用來補充 GPU,而不是取代 GPU。

黃仁勳:NVIDIA 與 ASIC 長期競爭,但 GPU 的通用性更無可取代

面對 TPU 再度被炒作成「GPU 的威脅」,NVIDIA 執行長黃仁勳於近期回應時保持相當坦然。他表示,Google 多年來擁有 ASIC,「而且做得很好」,這種競爭 NVIDIA 早已面對多年。但他強調,GPU 與 ASIC 的定位完全不同。

他點出四大關鍵差異:
1. GPU 的通用性遠高於 ASIC(versatile)**

GPU 能跑多模態模型、影像、語音、HPC、渲染、推論等各種工作負載,彈性遠勝 ASIC。

2. GPU 具有更高可替換性(fungible)**

同一套 GPU 叢集可以在不同 AI 任務間快速切換,ASIC 則被綁定在既定用途。

3. CUDA 生態系是 ASIC 無法複製的護城河**

黃仁勳指出,新思(Synopsys)等 EDA 工具如今需要像 CUDA 這樣的 GPU 運算平台才能加速設計流程,ASIC 不具備這種軟體整合能力。

4. NVIDIA 部署範圍涵蓋雲端、OEM、企業端與邊緣運算**

相較之下,TPU 幾乎只存在 Google 自家資料中心。

黃仁勳強調,如今有一項只有 NVIDIA 能承擔的巨大新商機:以 AI 完整重塑 EDA、SDA、CAE 等電子設計與工程產業。這並非 ASIC 能涉入的領域。

GPU 市場地位穩固:ASIC 僅是「降低成本」的補充角色

從採購與部署角度觀察,TPU 並未對 NVIDIA 的主要市場造成衝擊,原因明確:

1. **企業端導入 AI 仍高度依賴 GPU 的通用性與生態支援**
2. **儘管雲端巨頭自研 ASIC,但仍是 NVIDIA 最大買家之一**
3. **AI 技術演進快速,GPU 更能適配新架構**
4. **軟體優先支援 GPU,ASIC 永遠在後面追趕**

因此,無論從技術、產品還是供應鏈角度看,GPU 仍是全球 AI 加速器的基準平台,ASIC 則作為 CSP 的成本最佳化工具存在。

TPU不是GPU的對手,而是Google的特殊工具

綜觀產業脈絡、雲端策略以及 NVIDIA 最新回應,可以歸納幾點清晰結論:

Google TPU 與 NVIDIA GPU 不存在直接競爭。**
TPU 是 Google 的特殊 ASIC,只適用於 Google 工作負載。**
GPU 具備通用性、生態與彈性,仍是 AI 訓練與推論市場的主流。
雲端巨頭自研 ASIC 的目的不是取代 GPU,而是降低成本與提升效率。**

在 AI 算力競賽全面升溫的當下,TPU、Trainium、ATMIA 等 ASIC 將持續存在,但它們扮演的是「雲端平台增效器」而非「GPU 的挑戰者」。全球 AI 生態的核心與標準,依舊由 NVIDIA 的 GPU 與 CUDA 所主導。