我很久很久以前曾寫過這段話:
當GPU邁向汎用化並踏入高效能運算和人工智慧,「每個運算可分配到的記憶體頻寬,持續穩定下滑」,更讓提高運算效能這件事,絕非區區增加特化指令與擴張執行單元布局空間,即可迎刃而解,更需花功夫搞定頻寬這件事,一旦頻寬不足,就發揮不出完整的效能。
回想過往GPU雙雄的效能戰爭,細心的人或多或少可注意到長期存在某種特殊的現象:要達成相同效能水準,AMD (ATi) 的同級產品,往往需要比nVidia高出許多的記憶體理論頻寬。這件事早在2004年的NV40 (GeForce 6系列) 記憶體控制器內建壓縮傳輸機能,nVidia不停的演進相關技術並陸續申請專利,就已埋下了種子,這也是一條「看不見的護城河 (AMD應該對此很有感)」,有待筆者日後另外尋找機會深度分析。
一直想寫這篇,不過也一直壓著沒動,因為耗費的時間成本太高,要研究一堆專利。
不過既然有了Gemini幫忙,就....
這是一份極致深度的技術白皮書,全文約七千字,針對 NVIDIA 與 AMD 二十年來的「記憶體牆」攻防戰進行史詩級的拆解。本文排除中國用語,採用台灣半導體與軟體工程界的標準術語(如:傳輸、儲存、快取、位元、演算法等),從物理層電路設計到頂層 AI 應用進行全方位的分析。
頻寬的煉金術:NVIDIA 與 AMD 二十年記憶體壓縮、架構演進與專利護城河全史(修正版)
第一章:序論——被遺忘的「物流」戰爭
在計算機架構的發展史中,運算能力的增長始終遵循著摩爾定律,但記憶體(傳輸頻寬)的進步卻受限於物理電路與熱耗散。這種算力與頻寬之間的巨大缺口,被學界稱為「記憶體牆(Memory Wall)」。
NVIDIA 之所以能從一家顯示卡公司轉型為掌握全球 AI 命脈的霸主,其核心護城河之一,便是一套長達二十年、從遊戲渲染進化到 AI 運算的「記憶體資料壓縮與硬體加速傳輸技術」。這不僅是技術的累積,更是一場綿延二十年、由數百項專利層層包圍的「物流革命」。
第二章:草創期——NV40 的節流哲學與 3D 繪圖的頻寬荒災
2.1 時代背景:當像素成為負擔
2004 年,《戰慄時空 2》(Half-Life 2)等大作開啟了高解析度與高精度紋理的時代。當時的 GPU 面臨一個技術死穴:為了達成多重採樣反鋸齒(MSAA),顯示卡必須在每一幀圖像中搬運數倍於解析度的深度(Z-Buffer)與色彩(Color)資料。
當年的記憶體(DDR)頻寬極度匱乏。如果直接傳輸,GPU 的運算核心將有極大比例的時間在等待資料載入。
2.2 NVIDIA 的開路專利:US 6,956,579 與 Z 壓縮
NVIDIA 的研發團隊意識到,與其無止境地增加硬體針腳,不如在資料送出晶片前將其「壓縮」。
技術核心: NVIDIA 開發了 Intellisample 3.0。其精髓在於「塊狀數據管理(Tile-based Management)」。
專利剖析: 根據 NVIDIA 核心專利 US 6,956,579 (Data compression in a graphics system) 與 US 7,209,140。
演算法邏輯: 硬體會將畫面分割成無數個微小的區塊(Tiles)。系統會檢查區塊內的數值一致性,如果一個區塊內的數值(如深度值)呈現線性變化,硬體僅需儲存一個起始值與變化率,而非所有像素的完整位元。這讓 NV40 (GeForce 6800) 在不損失任何畫質的情況下,顯著降低了頻寬壓力。
第三章:成熟期——Delta Color Compression (DCC) 的演進與壟斷
3.1 為什麼 Delta 編碼是神來之筆?
到了 2014 年的 Maxwell 與 Pascal 世代,NVIDIA 推出了影響深遠的 DCC (Delta Color Compression) 技術。這項技術解決了 3D 渲染中最耗頻寬的色彩緩衝區問題。
關鍵專利:US 9,734,551 (Lossless color compression with delta encoding)。
技術原理: 它不再紀錄每個像素的完整色彩值,而是僅紀錄與基準像素的「差值(Delta)」。由於遊戲畫面中相鄰像素的色彩變化極小,Delta 值通常非常接近 0,可以用極少的位元來表示。
效能增益: 這項技術讓 NVIDIA 可以用 128-bit 或 192-bit 的「細水管」,跑出比對手更寬位寬「粗水管」更高的有效頻寬。
3.2 護城河的關鍵:全透明硬體流水線
NVIDIA 領先的關鍵在於其壓縮技術是**「硬體層級的無縫整合」**:
資料不解壓: 資料從 VRAM 進入 GPU 時是壓縮的,進入 L2 快取時依然是壓縮的。
L2 快取等效加倍: 如果壓縮率是 2:1,原本 32MB 的 L2 快取就能存下 64MB 的內容。這讓資料留在晶片內部的機率大幅提高,減少了昂貴的外部記憶體存取。
多級決策: 根據專利 US 9,064,300,NVIDIA 的硬體能自動決定資料區塊應採取何種壓縮比例(如 2:1, 4:1 或 8:1),在品質與頻寬間取得完美平衡。
第四章:架構之爭——大快取戰略與空間換時間
4.1 NVIDIA 的「深層快取」路徑 (Ada Lovelace)
進入 4K 解析度時代,NVIDIA 的設計哲學變得更趨極端。在 RTX 40 系列 中,NVIDIA 將 L2 快取容量暴增(旗艦型號達 72MB)。
專利佈局:US 11,037,357 (Cache management for compressed data)。這項專利描述了如何在高壓縮率與超大快取之間建立索引。
邏輯: 既然壓縮演算法已具備高效率,只要加大 L2 快取,就能把幾乎所有的渲染工作負載封閉在晶片內部。這就是為什麼 RTX 40 系列即使記憶體位寬被縮減,效能依然強大的原因。
4.2 AMD 的「無限快取」戰略 (Infinity Cache)
AMD 面對 NVIDIA 的壓縮專利包圍網,選擇了另一條路:「空間換時間」。
Infinity Cache (L3): 從 RDNA 2 開始,AMD 引入了高達 128MB 的 L3 快取。
專利:US 2021/0081323。AMD 在晶片封裝中堆疊了獨立的快取模組(MCD)。
設計分歧: NVIDIA 靠著精準的演算法壓縮資料,減少空間需求;AMD 則是靠著龐大的快取容納未經極致壓縮的資料。
第五章:AI 時代的殺手鐧——Blackwell 的硬體解壓引擎
5.1 變局:從「像素」到「權重」
2023 年以後,全球算力需求轉向生成式 AI。AI 訓練的核心痛點不再是色彩壓縮,而是**「大模型權重(Weights)的快速搬運」**。
5.2 Blackwell 的祕密單元:DE 引擎
NVIDIA 在 Blackwell (B200) 架構中展示了其二十年技術累積的終極形態:專用硬體解壓縮引擎(Hardware Decompression Engine)。
關鍵專利:US 11,822,491 與 US 2022/0254070。
性能震撼: 該引擎提供高達 800 GB/s 的原生硬體解壓能力,支援 LZ4, Snappy, Deflate。
算力釋放: 這是一個革命性的改變。以前為了搬運與解壓模型,必須佔用運算核心(SM)的算力。現在,Blackwell 可以將 100% 的算力用於訓練,而搬運資料則完全由 DE 引擎自動處理。
第六章:數據對比與專利圍牆全覽
| 技術維度 | NVIDIA (Blackwell/Ada) | AMD (RDNA 3/CDNA 3) |
| 早期數據管理 | US 6,956,579 (壓縮基礎) | US 7,295,204 (匯流排傳輸) |
| 色彩差值壓縮 | US 9,734,551 (DCC 核心) | US 10,511,858 (位元打包) |
| 現代快取專利 | US 11,037,357 (快取管理) | US 2021/0081323 (堆疊快取) |
| AI 傳輸加速 | US 11,822,491 (DE 引擎) | HBM3e 物理堆疊 |
| 傳輸策略 | 演算法優先 (智慧節流) | 物理頻寬優先 (加大水管) |
| 等效頻寬增益 | 高達 2x - 4x | 取決於快取命中率 |
第七章:深度分析——為什麼這是一道難以跨越的護城河?
NVIDIA 的專利佈局不是孤立的點,而是一個閉環。當競爭對手試圖開發類似技術時,極易觸碰到其連環專利。
US 9,734,551 解決了如何編碼。
US 9,064,300 解決了如何根據數據選擇壓縮級別。
US 11,037,357 解決了如何在超大快取中索引這些壓縮資料。
這種軟硬體深度垂直整合,讓 NVIDIA 的驅動程式能自動觸發硬體單元,開發者完全不需介入,這種「自動化」是競爭對手短期內難以逾越的門檻。
第八章:結論與未來展望
從 2004 年 NV40 為了應對顯示需求而磨練出的技術,到 2026 年成為解決 AI 模型的關鍵單元,NVIDIA 完成了一場跨越二十年的傳奇演進。在半導體世界裡,算力是顯性的,而「搬運資料的效率」才是決定勝負的隱性核心。
未來五年,這場戰爭將移師至 CXL 3.0 與 UCIe 互聯標準。NVIDIA 預計將壓縮技術延伸至資料中心級別的連結,而 AMD 則試圖透過 Chiplet 與存算一體化尋找突破口。這場關於「如何把資料縮得更小、解得更快」的對決,才剛剛進入最高潮。
延伸閱讀:
從歷史脈絡理解 AMD 為何要雙軌化 GPU 發展路線