Bitget App
交易「智」變
快速買幣市場交易合約理財廣場更多
當工程師拒絕更聰明的模型:AI推理大戰,OpenAI換了一把「槍」

當工程師拒絕更聰明的模型:AI推理大戰,OpenAI換了一把「槍」

华尔街见闻华尔街见闻2026/05/18 12:10
顯示原文
作者:华尔街见闻

人工智慧推理市場正經歷一場深刻的範式轉變——速度,而非智慧,正成為開發者願意付費的核心變數。這種偏好的逆轉,讓長期處於邊緣地位的晶片公司Cerebras走到聚光燈下,也讓OpenAI斥資數百億美元押注一家即將上市的晶圓級晶片製造商。

根據產業研究機構SemiAnalysis的深度報告,OpenAI已與Cerebras簽署總規模高達750兆瓦算力的主協議,潛在擴展至2吉瓦,對應剩餘履約義務高達246億美元。

這筆交易的核心邏輯在於:OpenAI旗下GPT-5.3-Codex-Spark模型在Cerebras硬體上可實現每用戶每秒2000個token的生成速度,遠超基於HBM的GPU叢集所能提供的互動體驗。與此同時,Cerebras正站在IPO門檻,其命運已與OpenAI深度綁定。

這場速度革命的市場訊號已相當明確。SemiAnalysis披露,其團隊80%的AI支出(年化峰值達1000萬美元)集中在Anthropic的Opus 4.6快速模式——該模式以6倍溢價換取2.5倍互動速度。更具說服力的是,當Opus 4.7發佈時,團隊中多名工程師拒絕升級,原因僅僅是新版本不支援快速模式。這是SemiAnalysis團隊首次主動放棄前沿智慧,轉而選擇更快的token生成速度。

當工程師拒絕更聰明的模型:AI推理大戰,OpenAI換了一把「槍」 image 0

速度溢價:開發者用錢包投票

推理市場的競爭格局正沿著一條嶄新的軸線重新劃分。

正如Nvidia執行長Jensen Huang在今年GTC大会上反覆強調的,吞吐量(每GPU每秒token數)與互動性(每用戶每秒token數)是推理的根本性權衡——前者服務於批量處理,後者決定用戶體驗。SemiAnalysis將其比喻為「公車與法拉利」的選擇:你可以慢速服務大量用戶,也可以快速服務單一用戶。

當工程師拒絕更聰明的模型:AI推理大戰,OpenAI換了一把「槍」 image 1

市場的偏好已通過消費行為得到驗證。Opus 4.6快速模式以6倍價格換取約2.5倍的互動速度,一度成為Anthropic利潤率最高的產品SKU,也是其今年ARR爆發式增長的重要動力來源。然而,SemiAnalysis與OpenRouter合作收集的數據顯示,該模式近期已出現效能退化——標準Opus 4.6的互動速度穩定在約40 tps,快速模式曾超過100 tps,但近期已降至約70 tps,實際加速比由2.5倍縮水至約1.75倍。

OpenAI和Anthropic均已意識到此一需求層次,並通過快速模式、優先模式、批量定價等多種產品形態,試圖覆蓋整體市場並尋找利潤最大化的組合點。

晶圓級晶片:一場豪賭的技術邏輯

Cerebras的核心賭注,是突破光刻機單次曝光的物理極限,將整張晶圓做成一塊晶片。

其第三代產品WSE-3採用台積電N5工藝製造,在一張晶圓上集成44GB SRAM,提供21PB/s的記憶體頻寬——比HBM高出數千倍。這種架構的本質在於:以極高的記憶體帶寬換取極低的存取延遲,使得在小批量、低運算強度的解碼場景下,WSE-3能夠發揮其理論算力,而基於HBM的GPU於同等場景下往往處於「算力飢渴」狀態。

然而,這一架構也帶來了顯著的計算密度代價。SemiAnalysis指出,WSE-3的稠密FP16算力實際僅有15.625 PFLOPS——這與Cerebras官方宣稱的125 PFLOPS相差8倍,差異源於其採用8:1非結構化稀疏假設,SemiAnalysis稱之為「Feldman公式」,並把它和Nvidia的「Jensen數學」相提並論,但認為前者走得更遠。

在系統成本方面,SemiAnalysis估算每台CS-3伺服器的物料成本(含KVSS CPU節點)約為45萬美元,遠高於其晶片本身約2萬美元的台積電晶圓成本。高昂的客製化電源模組(來自Vicor)、液冷系統以及每批次晶圓所需的訂製光罩,共同推高了整體成本結構。

當工程師拒絕更聰明的模型:AI推理大戰,OpenAI換了一把「槍」 image 2

架構短板:網路帶寬的幾何困境

WSE-3最顯著的弱點,是極其有限的片外帶寬。

每塊WSE-3僅提供150GB/s(1.2Tb/s)的片外帶寬,僅為Nvidia Blackwell NVLink5單GPU 900GB/s規模擴展帶寬的六分之一。這一限制並非設計疏忽,而是晶圓級架構的內在約束——SemiAnalysis將其稱為「島嶼問題」。

問題根源在於晶圓的均勻步進曝光機制。WSE-3由84個相同的曝光單元(die)拼接組成,每個曝光單元必須完全相同,以確保跨die的片上2D網格互聯正常運作。這意味著無法將SerDes PHY集中部署在晶圓邊緣——若要增加I/O帶寬,就必須在每個曝光單元中都預留PHY面積,而位於晶圓內部的PHY無法連接外部,產生大量「擱置矽」。此外,PHY模組還會在片上網格形成「空洞」,增加數據路由延遲,削弱晶圓級架構的核心優勢。

這個帶寬瓶頸直接限制了Cerebras服務大型模型的能力。對於參數超過1兆、上下文視窗達到百萬token級的現代人工智慧工作負載,Cerebras不得不採用流水線並行策略,將模型按層切分到多塊晶圓上,僅在晶圓之間傳輸激活值。但隨著模型規模擴大,所需晶圓數隨之線性增加,每次晶圓間傳輸的固定延遲也隨之疊加,最終侵蝕速度優勢。

SRAM擴展已死:路線圖的隱憂

Cerebras面臨的另一個結構性挑戰,是SRAM密度擴展的物理極限。

從WSE-1(台積電16nm,18GB SRAM)到WSE-2(7nm,40GB),SRAM容量實現了2.2倍的世代提升。但WSE-3從7nm升級到5nm,SRAM容量僅由40GB增至44GB,增幅僅10%,而邏輯電晶體數量約增長50%。SemiAnalysis的數據顯示,在5nm之後,台積電N3E相較N5的SRAM單元面積幾乎沒有縮減,N2及後續製程亦然——SRAM擴展實際上已停滯。

當工程師拒絕更聰明的模型:AI推理大戰,OpenAI換了一把「槍」 image 3

這意味著Cerebras未來提升SRAM容量的唯一路徑,是在固定晶圓面積內犧牲運算面積換取儲存面積,形成嚴格的零和權衡。下一代CS-4系統將沿用基於N5的WSE-3,僅通過提升功耗以提高時脈頻率和算力,SRAM容量則維持不變。

相比之下,Nvidia收購Groq之後,預計可利用混合鍵合技術於Z軸方向堆疊SRAM晶片(即LP40路線圖),繞過平面擴展的限制。Cerebras也在探索類似路徑——將DRAM晶圓或光子互連晶圓透過混合鍵合堆疊於WSE之上,但SemiAnalysis對其技術可行性和時程保持審慎態度,認為晶圓級混合鍵合所面臨的熱機械壓力和鍵合波挑戰遠比傳統晶片複雜。

OpenAI交易:單一客戶的雙刃劍

Cerebras和OpenAI的關係,已經遠超一般供應商與客戶的範疇。

根據SemiAnalysis引用的S-1文件,雙方於2025年12月簽署主關係協議(MRA),OpenAI承諾在2026至2028年間分批採購750兆瓦AI推理算力,每批合同期3至4年,可延長至5年,並持有額外採購1.25吉瓦的選擇權。截至2025年12月31日,Cerebras剩餘履約義務達246億美元。

當工程師拒絕更聰明的模型:AI推理大戰,OpenAI換了一把「槍」 image 4

資本結構上,OpenAI同時扮演三重角色:向Cerebras提供10億美元有擔保營運資金貸款(年利率6%,若以算力交付方式償還則可免收利息);持有3344.5萬股N類(無表決權)普通股認股權證,行權價格接近於零;並在完全稀釋基礎上可能持有Cerebras約12%股份。若MRA因OpenAI以外的原因終止,Cerebras必須立即償還全部貸款餘額與應計利息,且OpenAI有權直接控制託管帳戶資金的動用。

這一架構意味Cerebras的成長前景與單一客戶高度綁定。SemiAnalysis預計,Cerebras未來數年營收將出現明顯拐點,OpenAI是主要成長動力,但執行風險也同樣集中——在2028年前,Cerebras須交付的伺服器數將比其歷史總出貨量高出一個數量級,而資料中心產能落地的進度則是最大變數。

速度換智能:這筆交易值多少錢

OpenAI在Cerebras上運行的旗艦產品GPT-5.3-Codex-Spark,並非真正的GPT-5.3-Codex,而是基於gpt-oss-120B架構、經GPT-5.3-Codex蒸餾訓練的小型模型,參數量比原版縮小超過10倍。

SemiAnalysis說得直白:Cerebras的晶片在經濟性目前僅能高效服務相對小型的模型。對於參數逾1兆、上下文視窗達100萬token的現代智慧型體工作負載,OpenAI若要在Cerebras上運作,須接受明顯的成本溢價,且預計實際互動速度將低於每秒1000個token。

不過,這種判斷背後存在一個關鍵變數:演算法進步的速度。SemiAnalysis認為,距離120B參數模型達到GPT-5.5級的智慧,可能僅剩不到一年時間。屆時,「以前沿智慧換超高速token」的價值主張將徹底質變——正如今天工程師們寧可放棄Opus 4.7更高的智能,也要堅守Opus 4.6快速模式的互動體驗。

750兆瓦的初始承諾已經鎖定。真正的問題在於:當120B模型的智慧追上今天的前沿水準,OpenAI是否會選擇將選擇權轉化為實際採購,將協議規模擴展至2吉瓦甚至更多。這個答案,將決定Cerebras的IPO估值能否成真,也將定義下一階段推理戰爭的勝負關鍵。

0
0

免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX: 鎖倉獲得新代幣空投
不要錯過熱門新幣,且APR 高達 10%+
立即參與