Skip to content

2026 01 06 吉瓦級AI訓練負載波動——電網停電的風險?

這是一份來自 SemiAnalysis 發布於 2025年6月26日 的深度技術報告,標題為《AI Training Load Fluctuations at Gigawatt-scale - Risk of Power Grid Blackout?》(吉瓦級AI訓練負載波動——電網停電的風險?)。

這份報告揭示了一個比單純「缺電」更為隱蔽且危險的物理問題:AI 訓練負載的極端波動性可能導致電網崩潰。

以下是該報告的重點摘要,以及與我們之前研究的詳細比較分析。


第一部分:SemiAnalysis 報告重點摘要

1. 核心問題:AI 訓練的「脈衝式」用電特徵

  • 毫秒級波動: 與傳統雲端運算或工廠負載不同,AI 訓練(Training)是同步進行的。當數萬顆 GPU 同時進行「檢查點存檔」(Checkpointing)或等待通訊時,功耗會在幾毫秒內從 100% 驟降至接近 0%,然後瞬間拉回滿載。

  • 電網無法承受: 這種瞬間數十 MW 甚至上百 MW 的劇烈跳動(Transient),超出了傳統機械式發電機(如燃氣渦輪)的物理慣性反應能力。

  • 軟體權宜之計的浪費: 為了不讓電網崩潰,工程師被迫在程式碼中加入指令(如 pytorch_no_powerplant_blowup=1),讓 GPU 在空閒時執行「虛擬運算」(Dummy Workloads)以維持高耗電。這造成每年數千萬美元的電力浪費。

2. 潛在災難:級聯停電(Cascading Blackouts)風險

  • LVRT(低電壓穿越)失敗: 如果電網發生微小故障導致電壓瞬間下降,資料中心的保護機制可能觸發,導致整個資料中心(GW等級負載)瞬間斷開連接(Trip)。

  • 頻率失控: 如此巨大的負載瞬間消失,會導致電網頻率飆升(因為發電量大於負載),進而觸發保護機制讓發電廠跳機,最終導致類似西班牙伊比利半島或德州的廣域大停電。

3. 解決方案:BESS 作為「減震器」

  • 負載平滑化(Load Smoothing): 特斯拉(Tesla)提出的 Megapack 方案不僅是為了備用電源,更是為了主動濾波。電池可以毫秒級響應,填補 GPU 負載下降時的缺口,讓電網看到一條平滑的用電曲線。

  • xAI Colossus 案例: 馬斯克的 xAI 在曼菲斯建設的 Colossus 資料中心(20萬顆 GPU),利用 Tesla Megapack 來處理這種負載平滑化與需求響應,從而獲得了更快的併網許可。


第二部分:與先前研究的比較分析

這份報告為我們之前的「2026年電力缺口與儲能報告」補上了最關鍵的微觀物理拼圖。之前的研究側重於「總量」與「供應鏈」,這份報告側重於「品質」與「技術特性」。

1. 相同點(驗證與強化)

  • BESS 是絕對的贏家:

    • 先前研究: 認為 BESS 用於「削峰填谷」(轉移尖峰負載)和「備用電源」。

    • 本篇報告: 進一步證實 BESS 是唯一能處理 AI 毫秒級波動的硬體方案。這意味著 BESS 對 AI 資料中心來說,不再是選配,而是標配。這極大強化了 Tesla (Megapack)Fluence 等儲能業者的投資邏輯。

  • 電網互連是瓶頸:

    • 先前研究: 指出 PJM/ERCOT 排隊時間長,變壓器短缺。

    • 本篇報告: 指出除了硬體短缺,「負載特性太危險」也是電力公司不敢讓資料中心併網的主因。

  • Tesla 的主導地位:

    • 兩份研究都明確指出 Tesla 在能源市場的佈局(Megapack)將是其被低估的成長引擎。

2. 差異點(新發現與觀點修正)

結論與修正後的投資洞察

這份報告將我們的研究結論推向了一個更具技術強制性的層次:

  1. BESS 是 AI 的「穩壓器」:以前我們認為買電池是為了省電費或當備用;現在看來,沒有電池,NVIDIA 的 GB200 NVL72 機櫃可能根本不被允許接入電網,或者必須犧牲鉅額算力來跑「虛擬負載」。

  2. Tesla Megapack 的護城河加深:能夠軟硬體整合(控制 GPU 負載與電池放電同步)的廠商將擁有巨大優勢。Tesla 同時擁有 xAI(使用者)和 Megapack(設備),這使其在驗證解決方案上領先對手。

  3. 電力電子設備升級:除了電池,能處理高頻寬波動的 高階逆變器智慧電網控制軟體(如 Eaton, Schneider Electric 提供的方案)需求將比預期更強勁。

簡而言之,這份報告告訴我們:2026 年的危機不只是「沒電」,而是「電網會被 AI 震壞」。 這使得儲能系統從「可選配備」變成了「運轉執照」。

表後發電(Behind-the-Meter Generation,例如自建天然氣發電機或燃料電池),一樣無法直接承受 AI 訓練負載那種毫秒級的劇烈跳動

如果把 1 萬顆 GPU 直接接在天然氣渦輪機上,當 GPU 負載瞬間從 100% 掉到 10%(例如進入通訊等待期),發電機的轉速會因為失去負載而瞬間飆升(Overspeed),導致頻率失控甚至損壞設備;反之,當負載瞬間衝上來,發電機來不及補油門,電壓會瞬間崩跌(Voltage Dip),導致伺服器當機。

既然如此,為什麼還要推「表後發電」?這其中的關鍵在於「解耦」(Decoupling)

這裡為您深入解析「表後發電」如何處理這個物理難題:

1. 核心觀念:發電機不直接推動 GPU,它是推動「電池」

在 AI 資料中心的表後發電架構中,並不是「發電機 -> GPU」這麼簡單。真正的架構是:

發電機 (穩定輸出) ➔ 電池儲能系統 (BESS) / UPS ➔ AI 晶片 (劇烈波動)

這就是所謂的「直流解耦」(DC Link / Decoupling)

  • 發電機的角色:它只負責提供「平均功率」。例如,雖然 AI 負載在 20MW 到 100MW 之間狂跳,但「平均」可能是 70MW。發電機就鎖定在 70MW 的最佳效率點穩定運轉,完全不需要去追那毫秒級的跳動。

  • 電池的角色(BESS):它就像一個巨大的「電容器」或「避震器」

    • 當 GPU 瞬間要 100MW,發電機只給 70MW,剩下的 30MW 由電池毫秒級放電補足。

    • 當 GPU 瞬間只要 20MW,發電機還是在給 70MW,多出來的 50MW 就灌進電池充電

結論:表後發電之所以可行,是因為它強制綁定了電池儲能系統。沒有電池的表後發電,在 AI 負載下是無法生存的。

2. 為什麼「電網」不能這樣做?(為何還要自建?)

您可能會問:「既然都要用電池來濾波,那為什麼不直接用『電網 + 電池』就好了?何必自己發電?」

這回到了我們最初討論的兩個限制:

  1. 電網容量不足(硬傷):電網根本沒有那 70MW 給你。就算你有電池能把負載修得很平滑,電力公司那邊的變壓器就是不夠大,給不出這麼多電。這時候「表後發電」是為了解決「有與無」的問題

  2. 電網的「污染」規範

    • 如果您接市電,您排放回電網的「垃圾」(諧波 Harmonics、無效功率 Reactive Power、電壓閃爍 Flicker)必須符合嚴格的規範(如 IEEE 519)。

    • AI 這種負載非常「髒」(Dirty Load)。要把它清洗到電力公司滿意,您需要投資極其昂貴的濾波設備(Active Harmonic Filters)。

    • 自建發電的優勢:在自己的微電網裡,您就是規則制定者。只要您的設備(伺服器)能忍受,或者您的電池能處理,您不需要擔心電力公司因為偵測到諧波污染而對您罰款或斷電。

3. 實際案例:Bloom Energy 的 "Always On" 模式

以目前資料中心常用的 Bloom Energy(固態燃料電池, SOFC) 為例,這種發電設備的反應速度非常慢(化學反應需要時間),它比傳統渦輪發電機更怕負載波動。

所以 Bloom Energy 的解決方案正是標準的 Server + Gas + Battery 混合架構:

- 燃料電池 24 小時恆定輸出(Prime Power)。

- 旁邊配置一組鋰電池或飛輪 UPS。

- 所有的負載跳動全部由電池吃下。

總結您的疑問

您的看法完全正確:物理定律是公平的,發電機也怕瞬間波動。

但「表後發電」的戰略價值在於:它讓資料中心業者可以完全掌控「發電+儲能」的整個系統設計

  • 在電網端,您是被動的,只能祈禱電網夠強壯,或者花大錢買電池來討好電力公司。

  • 在表後發電端,您主動設計一個「發電機充飽電池,電池餵飽 GPU」的系統。雖然這增加了電池的成本,但它換來了不依賴電網擴容的獨立性,這對於搶時間上線的 AI 巨頭來說,是無價的。