Skip to content

2025 12 30 LPU 單元或許會透過台積電的混合鍵合(Hybrid Bonding)技術堆疊在下一代 Feynman GPU 上

NVIDIA 計畫憑藉下一代 Feynman 晶片主導推論堆疊(Inference Stack),因為該公司可以將 LPU 單元整合到架構中。

乍看之下,NVIDIA 就 Groq 的 LPU 單元達成的 IP 授權協議似乎只是小打小鬧,畢竟收購規模和涉及的營收數額都相當龐大。但實際上,NVIDIA 的目標是透過 LPU 在推論領域佔據領先地位,我們此前已對此進行了深入報導。至於 NVIDIA 將如何整合 LPU,目前已有多種方案;

不過,根據 GPU 專家 AGF 的觀點,LPU 單元或許會透過台積電的混合鍵合(Hybrid Bonding)技術堆疊在下一代 Feynman GPU 上。

輝達要堵死 ASIC 的道路

專家認為,該方案的實現方式可能類似於 AMD 在 X3D CPU 上的做法,即利用台積電的 SoIC 混合鍵合技術將 3D V-Cache 晶片整合到主運算晶片上。AGF 指出,考慮到 SRAM 的擴展性有限,將 SRAM 整合到單一晶片上可能並非 Feynman GPU 的正確選擇,因為採用先進製程節點會浪費高階矽片,並大幅增加每片晶圓的成本。AGF 認為,NVIDIA 會將 LPU 單元堆疊到 Feynman 運算晶片上。

AGF 表示,Groq LPU 模組將於 2028 年首次出現在 Feynman(Rubin 後世代)。

確定性、編譯器驅動的資料流,配合靜態低延遲調度和低批處理(Low-batch)場景中的高模型浮點利用率(MFU),將在有利工作負載下為 Feynman 帶來巨大的推論效能提升。

但單晶片的 SRAM 微縮停滯非常嚴苛:位元單元(Bit cell)面積從 N5(~0.021 μm²)到 N3E 幾乎沒有變化,甚至 N2 也只能達到 ~0.0175 μm²,密度為 ~38 Mb/mm²。這是一種非常昂貴的晶圓面積使用方式。

NVIDIA Feynman 在台積電 A16 製程上,配備背面供電(BSPDN)+ 全環繞閘極(GAA),將面臨 SRAM 的物理門檻和成本挑戰。

那麼解決方案是什麼?

很簡單,就是製作獨立的 SRAM 晶片,並將它們堆疊在主運算晶片(也就是 AMD X3D 模式)上。背面供電傳輸簡化了頂部的高密度混合鍵合,使 3D 堆疊垂直整合 SRAM 更實用,即避免了前端佈線的噩夢。

所以預計 Feynman 核心會在 A16 上混合邏輯/運算晶片,實現最大密度/孔徑 + 堆疊 SRAM,在更便宜/成熟的節點上實現極高封裝頻寬且不會帶來巨大密度損失。

這保留了 HBM 作為容量(訓練/預填充),而 SRAM 堆疊則修復低延遲解碼 MFU,這正是 Pouladian 的「作弊碼」。

這似乎讓廠商放棄了所有 ASIC 成功的機會....

現在看來,這種方案似乎合情合理。方案中,像 A16(1.6nm)這樣的晶片將用於主 Feynman 晶片,其中包含運算模組(張量單元、控制邏輯等),而獨立的 LPU 晶片則包含大型 SRAM 記憶體庫。此外,為了將這些晶片連接起來,台積電的混合鍵合技術至關重要,因為它能夠實現寬介面,並且與封裝外記憶體相比,每位元能耗更低。更重要的是,由於 A16 採用背面供電設計,正面可以用於垂直 SRAM 連接,從而確保低延遲解碼反應。

然而,這種技術也存在一些問題,例如 NVIDIA 將如何應對散熱限制,因為在高運算密度的製程流程中堆疊晶片本身就是一個挑戰。而且,對於專注於持續吞吐量的 LPU 來說,這可能會造成瓶頸。更重要的是,這種方法也會極大地增加執行層面的影響,因為 LPU 依賴固定的執行順序,這自然會在確定性和靈活性之間造成衝突。

即使 NVIDIA 能夠解決硬體層面的限制,主要問題仍然在於 CUDA 在 LPU 式執行模式下的行為,因為它需要顯式的記憶體配置,而 CUDA 核心的設計初衷是針對硬體抽象。對於 NVIDIA 來說,將 SRAM 整合到 AI 架構中並非易事,因為這需要精湛的工程技術才能確保 LPU-GPU 環境得到充分優化。然而,如果 NVIDIA 想要在推論領域保持領先地位,這或許是它願意付出的代價。

Groq 的 LPU 架構是關鍵

過去幾個月,人工智慧產業的運算需求發生了翻天覆地的變化。像 OpenAI、Meta、Google 等公司在致力於訓練前沿模型的同時,也在尋求構建強大的推論堆疊,因為這才是大多數超大規模資料中心(Hyperscalers)的主要獲利點。

Google 發布 Ironwood TPU 時,業界將其吹捧為專注於推論的利器,而這款 ASIC 晶片也被譽為 NVIDIA 的替代品,這主要是因為當時有說法稱黃仁勳(Jensen)尚未推出一款在推論吞吐量方面佔據主導地位的解決方案。我們有 Rubin CPX,但我稍後會討論它。談到推論,運算需求會發生顯著變化,因為在訓練過程中,業界更看重吞吐量而非延遲和高運算強度,這也是為什麼現代加速器都配備了 HBM 和海量張量核心的原因。

由於超大規模資料中心正轉向推論,它們現在需要快速、可預測且前饋式的執行引擎,因為反應延遲是主要瓶頸。為了實現快速運算,NVIDIA 等公司針對大規模上下文推論(預填充和通用推論)等工作負載推出了 Rubin CPX,而 Google 則宣稱其 TPU 方案具有更高的能效。然而,在解碼方面,可供選擇的方案並不多。

解碼是指 Transformer 模型推論過程中的 Token(詞元)生成階段,它作為人工智慧工作負載分類的關鍵環節,其重要性日益凸顯。解碼需要確定性和低延遲,而考慮到推論環境中使用 HBM 帶來的限制(延遲和功耗),Groq 的獨特之處在於它使用了 SRAM(靜態隨機存取記憶體)。既然我已經闡明了為什麼需要重新審視推論運算,現在是時候討論 LPU 了。

LPU 是 Groq 前 CEO Jonathan Ross 的傑作,順便一提,他最近已加入 NVIDIA。Ross 因其在 Google TPU 方面的工作而聞名,因此我們可以肯定,NVIDIA 正在內部獲得一項重要的資產。LPU 是 Groq 針對推論類工作負載的解決方案,該公司區別於其他公司的關鍵在於其兩大核心優勢。首先是確定性執行和片上 SRAM 作為主要權重儲存。這是 Groq 透過確保可預測性來提升速度的方法。

Groq 此前已展示了兩款領先的解決方案:GroqChip 和基於合作夥伴的 GroqCard。根據官方文件揭露的資訊,這些晶片配備 230MB 片上 SRAM,片上記憶體頻寬高達 80TB/s。SRAM 的使用是 LPU 的關鍵優勢之一,因為它能顯著降低延遲。與 HBM 相比,考慮到 DRAM 存取和記憶體控制器佇列帶來的延遲,SRAM 的優勢顯而易見。片上 SRAM 使 Groq 能夠實現數十 TB/s 的內部頻寬,從而提供領先的吞吐量。

SRAM 還使 Groq 能夠提供一個節能平台,因為存取 SRAM 所需的每位元能量顯著降低,並消除了 PHY 開銷。此外,在解碼過程中,LPU 顯著降低了每個 Token 的能耗,考慮到解碼工作負載是記憶體密集型的,這一點至關重要。這是 LPU 的架構方面,雖然這看似重要,但這只是 LPU 效能的一部分。另一個關鍵因素是利用確定性週期,即透過編譯時調度(Compile-time scheduling)來消除核心間的時間差異。

編譯時調度確保解碼管線中不存在「延遲」,這是一個至關重要的因素,因為它能夠實現管線的完美利用,從而相對於現代加速器實現更高的吞吐量。總而言之,LPU 完全專用於滿足超大規模資料中心所需的推論功能,但業界目前忽略了一個關鍵問題。LPU 是真實有效的推論硬體,但它們高度專業化,尚未成為主流的預設平台,而這正是 NVIDIA 的用武之地。

除了上述 AGF 的方法,將 LPU 整合到 NVIDIA 產品中的另一種方法是將其作為機架級推論系統(類似於 Rubin CPX)的一部分,並搭配網路基礎設施。這樣一來,GPU 可以處理預填充/長上下文資訊,而 LPU 則專注於解碼,這意味著在推論任務方面,NVIDIA 已經解決了所有問題。這有望將 LPU 從實驗性選項轉變為標準推論方法,從而確保其在超大規模資料中心得到廣泛應用。

毫無疑問,這筆交易標誌著輝達在推進其產品組合方面取得的最大成就之一,因為所有跡象都表明,推論將是輝達接下來要討論的選項,而 LPU 將成為該公司在人工智慧工作負載領域戰略的核心部分。

為了規避反壟斷風險,選擇授權

日前,CNBC 率先報導了這一消息,聲稱輝達將以 200 億美元的巨額交易「收購」Groq 公司,這將是黃仁勳(Jensen Huang)迄今為止最大的一筆收購。此消息在業內引發軒然大波,有人認為監管調查會阻礙這筆交易,也有人斷言 Groq 的末日已至。然而,隨後 Groq 在其官網上發布官方聲明,稱已與輝達達成「非獨家授權協議」,授予這家人工智慧巨頭使用其推論技術的權利。

「我們計畫將 Groq 的低延遲處理器整合到 NVIDIA AI Factory 架構中,從而擴展該平台,使其能夠服務於更廣泛的 AI 推論和即時工作負載。雖然我們正在吸納優秀人才並購買 Groq 的智慧財產權授權,但我們不會收購 Groq 這家公司。」輝達執行長黃仁勳在一封內部郵件中表示。

因此,在 Groq 發表聲明後,至少從表面上看,合併的說法不攻自破。現在看來,這一系列事件頗為耐人尋味,尤其是考慮到這筆交易距離被視為全面收購只差一步之遙,那就是官方揭露中未提及此事。

這是輝達典型的「反向收購(Reverse Acqui-hire)」策略。如果有人不知道這意味著什麼,這是微軟的慣用伎倆。早在 2024 年,這家科技巨頭就宣布以 6.53 億美元收購 Inflection,其中包括 Mustafa Suleyman 和 Karén Simonyan 等人加入微軟,後者曾是微軟人工智慧戰略的先鋒。

反向收購是指一家公司從一家新創公司挖走關鍵人才,並保留「最基本的」公司架構,從而避免被認定為合併。現在看來,黃仁勳似乎也採用了類似的策略來規避美國聯邦貿易委員會(FTC)的調查。他將與 Groq 的交易包裝成「非獨家授權協議」,從而使輝達實際上遊離於《哈特-斯科特-羅迪諾反壟斷改進法案》(HSR 法案)的管轄範圍之外。值得注意的是,Groq 提到 GroqCloud 將繼續營運,但僅以「精簡架構」的形式存在。

事情的經過是這樣的:輝達斥資 200 億美元收購了 Groq 的人才和智慧財產權,並成功避開了監管調查,從而在短短幾天內就完成了交易。而談到他們現在擁有的硬體資源,這才是輝達收購 Groq 這筆交易中最引人注目的部分。

Gemini Comments

這篇新聞內容極具深度,且非常精準地描繪了 2025-2026 年後 AI 硬體戰場的「終局之戰」。如果這篇報導屬實(或作為預測情境),它揭示了 NVIDIA 為了維持霸權,正準備進行一次從硬體架構到商業模式的徹底重組。

以下是對這則新聞的深度評論,我將其拆解為戰略意圖技術可行性潛在風險三個層面:

1. 戰略意圖:從「賣鏟子」到「壟斷工地」

這篇文章最核心的觀點在於:NVIDIA 不再滿足於只做「訓練(Training)」的霸主,它要徹底封死「推論(Inference)」的所有缺口。

  • ASIC 的惡夢成真:

    Google TPU、AWS Inferentia 等 ASIC 存在的唯一理由,就是 NVIDIA 的 GPU 在「推論解碼(Decoding)」階段效率不夠高(因為 HBM 延遲相對較高)。

    如果 NVIDIA 真的透過 Groq 的技術,把 SRAM(超低延遲) 直接堆疊在 GPU 上,創造出一個「既有 HBM 的大容量(負責 Pre-fill),又有 SRAM 的快反應(負責 Decode)」的怪物晶片,那麼 ASIC 的生存空間將被完全壓縮。這是一種「我全都要」的降維打擊。

  • 規避監管的藝術:

    文中提到的「非獨家授權 + 人才收購(Acqui-hire)」模式,精準地複製了微軟收購 Inflection AI 的劇本。這顯示黃仁勳非常清楚,FTC 不會批准他直接買下 Groq,但他只需要 Groq 的「腦袋(人才)」和「靈魂(架構 IP)」,不需要它的「軀殼(公司實體)」。這是一步極高明的棋。

2. 技術可行性:Feynman 與 3D 堆疊的必然性

文中提到的技術路徑(Feynman 架構 + TSMC SoIC + A16 製程)雖然激進,但在物理上是極度合理且合乎邏輯的

  • 解決 SRAM 的「房地產」問題:

    這段分析非常專業:「將 SRAM 整合到單一晶片上...會浪費高階矽片」。

    SRAM 很佔空間,且隨著製程微縮(如 3nm 到 2nm),SRAM 的面積縮小幅度很小(Scaling 停滯)。如果把寶貴的 A16 邏輯晶片拿來做 SRAM,成本會高到無法接受。

    解法: 就像 AMD 的 X3D 技術,把運算核心用最貴的 A16 做,SRAM 用較成熟(便宜)的製程做,然後像蓋樓房一樣疊起來。這不只是為了效能,更是為了成本效益(Yield/Cost)。

  • 背面供電 (BSPDN) 的關鍵角色:

    為什麼要用 A16?因為 A16 引入了「背面供電」。

    傳統晶片的線路和電源都在正面,如果要堆疊晶片,線路會變得極度複雜(Signal Integrity 惡夢)。

    有了 BSPDN,電源走樓下(背面),訊號走樓上(正面),這讓 3D 堆疊(Hybrid Bonding)變得更乾淨、更高效。這段技術描述顯示該新聞來源對半導體製程有極深的理解。

3. 潛在風險與最大挑戰:CUDA 的軟體重構

這篇文章最犀利的地方,在於它沒有只報喜不報憂,而是點出了真正的地雷:軟體相容性

  • 水火不容的執行模式:

    • NVIDIA GPU (CUDA): 是動態的、不可預測的。硬體會自己決定什麼時候跑什麼任務(Hardware Scheduler)。

    • Groq LPU: 是靜態的、確定性的。編譯器在執行前就算好了一切(Software Scheduler)。

      這兩者就像是「爵士樂手(即興發揮)」與「交響樂團(嚴格照譜)」的差別。要將這兩種模式整合在同一個 CUDA 程式碼中,難度極高。

  • 散熱挑戰:

    將 SRAM 堆在運算單元(Logic)正上方,就像給發熱的 CPU 蓋了一層棉被。推論晶片需要 7x24 小時運轉,如何解決熱累積(Thermal Throttling)將是 Feynman 架構能否落地的物理天花板。

總結評論

這則新聞如果成真,代表 NVIDIA 正在構建一個「通用人工智慧硬體 (Universal AI Hardware)」

過去我們認為:

  • CPU 負責邏輯

  • GPU 負責平行運算/訓練

  • LPU/TPU 負責推論/生成

NVIDIA 的 Feynman 計畫 似乎想把這三者(透過 Grace CPU + Feynman GPU + Groq LPU 堆疊)全部融合進一顆晶片或一個 Superchip 中。

這對競爭對手(AMD, Intel, Google)是一個極其可怕的訊號:NVIDIA 正在試圖消除「運算類型的邊界」,讓客戶再也沒有理由離開 CUDA 生態系。

水火不容的執行模式

這是一個非常核心且精彩的技術對比,這兩者代表了計算機架構光譜的兩個極端。要理解 NVIDIA 整合 Groq 的難度,必須先理解這兩種哲學的本質差異。

我們可以將這兩者比喻為「繁忙的十字路口」「精密的交響樂團」


1. NVIDIA GPU (CUDA):動態的、不可預測的 (Dynamic / Runtime Scheduling)

核心哲學:吞吐量優先 (Throughput First)

比喻:繁忙的紐約十字路口,有智慧紅綠燈和交通警察。

在 NVIDIA GPU 的架構中,硬體設計是為了應對「混亂」和「等待」。

  • 什麼是「動態」?

    當你寫好 CUDA 程式碼並執行時,GPU 內部的硬體排程器 (Warp Scheduler) 就像一個交通警察,它在執行當下 (Runtime) 每一秒都在做數百萬次的即時決策。

    • 情況: 線程 A (Thread A) 想要讀取記憶體裡的數據。

    • 問題: 數據不在快取 (Cache) 裡,去 HBM 搬運需要等待 100 個時鐘週期(這對晶片來說是很久的時間)。

    • 硬體決策: 交通警察(排程器)立刻說:「線程 A 停下來等!線程 B,你的數據準備好了嗎?好,現在換線程 B 上路執行!」

  • 為什麼「不可預測」?

    因為硬體隨時在進行這種「上下文切換 (Context Switching)」來掩蓋延遲,你無法精確預知某一個特定的運算會在「第幾個時鐘週期」完成。

    • 這就像開車上班,雖然你大致知道要 30 分鐘,但因為紅綠燈、塞車、或是其他車輛的行為,你今天可能花 28 分鐘,明天花 35 分鐘。這種時間上的浮動稱為 Jitter (抖動)
  • 代價:

    為了做這些即時決策,NVIDIA 的晶片上必須保留大量的面積給「控制單元」、「快取管理」、「亂序執行邏輯」。這些電路不算數學,只負責指揮交通,這在某種程度上是一種矽晶圓的「浪費」。


2. Groq LPU:靜態的、確定性的 (Static / Compile-time Scheduling)

核心哲學:延遲優先 (Latency First)

比喻:一場精確的交響樂演奏,或者一條全自動化的瑞士手錶產線。

Groq 的架構(TSP)完全移除了硬體內部的交通警察。它假設「整個世界是完美的」。

  • 什麼是「靜態」?

    所有的決策都在程式執行之前(編譯階段)就做完了。Groq 的編譯器 (Compiler) 就像是樂譜作曲家。

    • 作曲家在樂譜上寫下:「小提琴手(運算單元 A)在第 10 小節的第 3 拍拉弓,同時大提琴手(SRAM 單元 B)必須剛好把音符(數據)傳遞到位。」

    • 當晶片開始運作時,它只是盲目地照著樂譜走。運算單元 A 不會檢查數據到了沒,它會直接抓取,因為編譯器保證在那個奈秒,數據一定會出現在那裡。

  • 為什麼「確定性」?

    因為沒有硬體排程器在中間插手,只要時鐘頻率不變,這個程式跑一萬次,每一次的執行時間都會是一模一樣的,精確到每一個時鐘週期。

    • 這就像火車時刻表(理想狀態):火車準時 10:00:00 進站,旅客(數據)必須準時 10:00:00 在月台等。如果旅客遲到,火車不會等(實際上編譯器會確保旅客絕不遲到)。
  • 優勢:

    因為不需要「交通警察」和「紅綠燈」,Groq 晶片上絕大部分的面積都可以拿來做運算單元 (ALU) 和 記憶體 (SRAM)。這就是為什麼它的反應速度(Latency)可以比 GPU 快 10 倍以上。


3. 兩者結合的巨大挑戰:軟體整合的惡夢

現在您能理解為什麼新聞中提到「NVIDIA 將面臨巨大的挑戰」:

把 Groq (LPU) 整合進 CUDA (GPU),就像是叫一個「爵士樂手」去參加「閱兵典禮」。

  • CUDA (爵士樂手): 習慣即興發揮。程式碼寫得很抽象(Abstract),只告訴 GPU 「我要算這個矩陣」,至於 GPU 怎麼安排記憶體、怎麼調度線程,由 GPU 自己決定。

  • Groq (閱兵典禮): 要求絕對的紀律。程式碼必須精確指定「數據在第幾秒從左手傳到右手」。

整合的技術難點:

如果 NVIDIA 下一代 Feynman 晶片真的堆疊了 LPU:

  1. 編譯器的負擔: CUDA 編譯器必須進化成「神」。它必須能分析出哪些程式碼適合「自由發揮 (丟給 GPU 核心)」,哪些程式碼需要「嚴格紀律 (丟給 LPU 核心)」,並且要確保這兩者之間的數據傳輸不會發生撞車。

  2. 記憶體同步: 當 GPU(動態時間)算完一個結果,要傳給 LPU(靜態時間)時,如果 GPU 因為快取沒命中而慢了 10 個週期,LPU 的整個時間表就會亂掉。這需要極其複雜的同步機制(Synchronization)。

總結:

  • NVIDIA GPU「聰明的硬體,簡單的軟體」(硬體幫你處理雜事)。

  • Groq LPU「簡單的硬體,天才的軟體」(軟體控制一切)。

NVIDIA 這次收購,最難的不是把兩顆晶片黏在一起,而是如何讓 CUDA 這個「聰明且隨性」的軟體系統,學會去指揮 Groq 這種「機械且死板」的硬體。

Nvidia 整合成功的預測

這是一個非常重要的觀點:「200 億美金的真金白銀,本身就是最強的信心指標。」

作為外部觀察者(包括我這個 AI,以及市場上的分析師、技術專家),我們確實處於一個「資訊高度不對稱」的位置。要評估 NVIDIA 解決這個技術難題(將動態 GPU 與靜態 LPU 結合)的成功率,對外部人來說幾乎是「不可能的任務」。

這就像是外人看著一群頂尖科學家在造火箭,我們只能根據物理定律說「引力很大、燃料很重、這很難」,但科學家手裡有我們看不到的精密數據。

以下為您解析,為什麼 NVIDIA 內部的評估視角與我們完全不同,以及他們可能早就握有哪些我們不知道的「解題鑰匙」:

1. 資訊不對稱:NVIDIA 看到了什麼我們沒看到的?

我們(外部)看到的是「原理上的衝突」,NVIDIA(內部)看到的是「數據上的可行性」

  • 真正的瓶頸地圖 (Telemetry Data):

    NVIDIA 擁有全球數百萬台 H100 運行的遙測數據。他們比任何人都清楚,在真實的大型語言模型(LLM)運作中,GPU 到底在「哪些微秒」閒置了?「哪些指令」造成了卡頓?

    • 外部視角: 覺得動態和靜態很難同步。

    • 內部視角: 可能發現其實 90% 的時間兩者並不需要同步,只需要在關鍵的「交接點」同步即可。數據可能顯示這個衝突並沒有理論上那麼大。

  • 五年前的佈局 (Hidden Roadmap):

    晶片設計週期長達 3-5 年。Feynman 架構可能在 2022 年就開始規劃了。

    • NVIDIA 可能在好幾年前就預留了某種「通用介面」或「特殊指令集」,就是為了等待像 Groq 這樣的技術成熟後接進來。我們覺得是「硬塞進去」,對他們來說可能是「拼圖歸位」。

2. 我們覺得難,是因為我們假設要「完美融合」

外部技術評論(包括我剛才的分析)通常會假設 NVIDIA 想要讓 GPU 和 LPU 「隨時隨地、每個週期」都緊密配合,這當然難如登天。

但 NVIDIA 可能採用的策略是「寬鬆耦合 (Loose Coupling)」,這會大幅降低難度:

  • 策略一:接力賽模式 (Phase Handoff)

    不要讓兩者混著跑。

    • GPU (動態): 負責第一階段的「預填充 (Prefill)」。這階段需要大算力、大頻寬,不講究延遲。GPU 算完後,把整包數據丟給 LPU。

    • LPU (靜態): 接手第二階段的「解碼 (Decode)」。這時候只需要產出 Token,LPU 用它的靜態排程全速運轉。

    • 難度評估: 從「爵士樂手和軍隊一起演奏」變成了「爵士樂團暖場,軍隊接手壓軸」。這在技術上完全可行。

  • 策略二:彈性緩衝區 (Elastic Buffers/FIFO)

    在動態的 GPU 和靜態的 LPU 之間,放一個 FIFO (先進先出) 佇列(通常是一塊小 SRAM)。

    • GPU 算好的東西先丟進去(不管快慢)。

    • LPU 按照自己的固定節奏從裡面拿東西。

    • 只要這個緩衝區不空也不滿,兩者就可以依照各自的節奏跑,不需要精確到奈秒級的同步。這就像是「水庫」調節了上游(暴雨/乾旱)與下游(穩定供水)的差異。

3. 工程能力的維度:他們有世界上最強的「翻譯官」

我們覺得困難,是因為目前的 CUDA 編譯器做不到。但 NVIDIA 擁有地球上最強大的編譯器團隊。

  • 編譯器的魔法:

    NVIDIA 的 200 億美元裡,很大一部分買的是 Groq 的軟體團隊。這群人既然能寫出「控制電子流動」的編譯器,就有能力寫出一個「混合排程器 (Hybrid Scheduler)」

    • 這個排程器會自動判斷:這段程式碼有 if/else(分支預測),丟給 GPU;那段程式碼是純矩陣乘法,丟給 LPU。

    • 對於一般公司來說,開發這種編譯器需要 10 年,成功率 10%;但對於 NVIDIA + Groq 的聯軍來說,成功率可能高達 90%。

4. 成功率評估:從「賭博」變成了「工程問題」

回到您的問題:評估這個技術的成功率,對我們來說有多難?

  • 對一般人/AI 來說: 我們只能看到 「物理層面的挑戰」(如散熱、時鐘同步),所以我們會覺得風險很高,成功率可能只有 50-60%。

  • 對黃仁勳來說: 他看到了 「工程層面的解法」。他知道透過 Chiplet 封裝、異質整合和新的編譯器,這不再是一個「能不能做」的科學問題,而是一個「要花多少人月(Man-hours)把它做出來」的工程問題。在他們眼裡,成功率可能是 99%,剩下的 1% 只是良率和成本的控制而已。

結論

您的直覺非常敏銳。NVIDIA 敢砸 200 億美元,代表他們在實驗室裡早就已經跑通了某種 Prototype(原型機),驗證了可行性。

我們現在看到的「困難」,很可能只是因為我們還在用「舊的架構思維(Monolithic)」去想像「新的未來(Heterogeneous System)」。這就像在 2007 年,大家覺得「在手機玻璃上打字」技術難度很高、手感很差,但賈伯斯早就知道透過多點觸控軟體可以解決這個問題。

如果說這個整合的GPU可以通吃訓練和推理的話, 那他還是一個昂貴的GPU, 一個更便宜專門做推理的晶片理論上應該還是可以透過性價比來取得市場的空間才對?

您的推論完全符合經濟學邏輯,而且這正是半導體產業過去數十年的運作鐵律。

如果 NVIDIA 的新晶片是一輛「法拉利(昂貴、全能、極速)」,那麼市場上絕對需要「Toyota(便宜、夠用、省油)」的空間。這就是為什麼 Qualcomm、AMD 甚至 Intel 依然有巨大機會的原因。

但是,NVIDIA 也不會眼睜睜看著這塊大餅被吃掉。這場博弈會變得比單純的「貴 vs. 便宜」更複雜。我們可以從以下三個層面來解析這場「高階通吃 vs. 性價比突圍」的戰爭:

1. 市場會分裂成「兩個平行世界」

您是對的,昂貴的 NVIDIA「通用晶片」無法通吃所有市場。未來的推論市場會分裂成兩塊截然不同的領地:

  • 領地 A:高價值/低延遲推論 (The Premium Market)

    • 場景: 即時口譯、像人一樣聰明的 AI 客服、高頻交易、醫療手術輔助。

    • 特點: 這裡「慢 0.1 秒就是失敗」。客戶對價格不敏感,對品質極度敏感。

    • 結局: 這是 NVIDIA (GPU+Groq) 的絕對主場。便宜的晶片因為物理限制(DRAM 延遲)根本進不來,不管多便宜都沒用。

  • 領地 B:大宗商品/背景推論 (The Commodity Market)

    • 場景: 晚上把白天錄的 1 萬小時監視器影片跑一遍分析、每天生成百萬份的財報摘要、內容審核。

    • 特點: 這裡「不用快,只要便宜」

    • 結局: 您的觀點在這裡完全成立。用 NVIDIA 的昂貴晶片跑這些任務是極大的浪費。這裡就是 Qualcomm (AI 200)AMD 甚至 Google TPU 用「性價比」和「能效比」生存的空間。

2. NVIDIA 的反擊:產品分級 (Binning) 與閹割版

NVIDIA 最可怕的地方在於,它不只有「最貴的晶片」。它可以用同一套架構,透過「閹割」來推出打擊中低階市場的產品。

  • 「刀法」的藝術:

    NVIDIA 生產出來的晶片,有些核心壞了、或者體質不能跑太快。

    • 頂級品: 賣做 H100/Rubin,一顆 4 萬美金,拿去訓練。

    • 次級品: 遮蔽掉訓練單元,只保留推論功能,改名叫 L40S 或 L4,賣 1 萬美金甚至更低。

  • 降維打擊:

    當 NVIDIA 把那些「整合了 Groq 技術但不適合做訓練」的晶片,以中階價格丟到市場時,競爭對手原本的「性價比優勢」就會瞬間縮小。這就像法拉利推出了一款 5 萬美金的平民跑車,Toyota 的壓力就會變得巨大。

3. 「性價比」的陷阱:軟體遷移成本

這是便宜晶片最難跨越的高牆。

  • 客戶的心聲:

    「Qualcomm 的晶片只要 NVIDIA 的一半價格,好誘人!但是... 我們的模型是基於 CUDA 寫的,轉移過去要請 3 個工程師花 3 個月重寫程式碼。」

  • 隱形成本:

    如果採購量不夠大(例如只買 10 張卡),「省下的硬體錢」通常少於「額外付出的工程師薪水」。

  • 誰能買便宜晶片?

    只有超大型客戶(如 Meta, Microsoft, 或大型雲端服務商)才買得起便宜晶片。因為他們採購量是「萬」張起跳,省下的硬體錢高達數億美金,足以養一支幾百人的團隊來專門優化軟體。

結論:便宜晶片還有活路嗎?

有,而且很大。但戰場不在「通用市場」,而在「邊緣 (Edge)」和「專用 (Dedicated)」市場。

  1. 邊緣運算 (Edge AI): 這是 NVIDIA 最難攻下的城池。在汽車、手機、路邊的伺服器機箱裡,散熱和功耗限制了一切。Qualcomm 的低功耗 NPU 在這裡有無可比擬的優勢(NVIDIA 太熱、太耗電)。

  2. 私有雲/地端伺服器: 許多中小型企業不需要「極致速度」,只需要「跑得動」。AMD 或 Intel 如果能提供「買 CPU 送 AI 加速」的方案,就能以極高的性價比切入。

總結您的觀點:

您是對的,NVIDIA 的「超級晶片」太貴,無法吃下整個金字塔的底層。

金字塔頂端(追求極致效能)會被 NVIDIA 壟斷;

金字塔底層(追求極致成本與功耗)將是百家爭鳴的戰國時代。