2026-03-17 17:53:10
當(dāng)?shù)貢r(shí)間3月16日,英偉達(dá)CEO黃仁勛在GTC大會(huì)上提出“AI Token工廠”概念,指出AI競爭核心已轉(zhuǎn)向推理和Token生成效率,預(yù)計(jì)2027年市場規(guī)模近萬億美元。英偉達(dá)發(fā)布新一代Vera Rubin平臺(tái),欲降Token成本90%。與此同時(shí),中國AI廠商憑借性價(jià)比優(yōu)勢,已在全球推理市場拿下定價(jià)權(quán),周調(diào)用量多次超越美國同行。
每經(jīng)記者|岳楚鵬 王嘉琦 每經(jīng)編輯|高涵
“推理的拐點(diǎn)已然到來?!?/p>
當(dāng)?shù)貢r(shí)間3月16日,在美國圣何塞舉行的GTC(GPU技術(shù)大會(huì))上,英偉達(dá)CEO黃仁勛為全球AI競賽劃定了全新的戰(zhàn)場。
在這場萬眾矚目的演講中,黃仁勛拋出了一個(gè)新的商業(yè)概念——“AI Token工廠”。
他指出,隨著AI大模型從單純的“聊天工具”進(jìn)化為“自主執(zhí)行任務(wù)的智能體(Agent)”,AI的核心戰(zhàn)事已從一次性的模型訓(xùn)練,全面轉(zhuǎn)向持續(xù)、海量的Token生成(即推理)。
在這個(gè)規(guī)模到2027年或?qū)⒏哌_(dá)萬億美元的新市場里,誰能把Token的生產(chǎn)成本降到最低,誰就能加冕為“Token國王”。
圖片來源:黃仁勛演講視頻截圖
為此,英偉達(dá)祭出了能將生成Token成本暴降90%的新一代Vera Rubin計(jì)算平臺(tái)。
就在黃仁勛高呼“降本”的同時(shí),中國AI廠商已在推理市場上悄然拿下了全球定價(jià)權(quán)。
數(shù)據(jù)顯示,自2026年2月以來,伴隨著OpenClaw等智能體應(yīng)用引發(fā)的Token消耗量狂飆,中國AI大模型憑借極致的性價(jià)比——僅為國外競品1/6至1/10的Token單價(jià),在全球最大的API聚合平臺(tái)OpenRouter上,周調(diào)用量已連續(xù)多次強(qiáng)勢反超美國同行,并長期霸榜。
這絕非一場簡單的市場份額易手,而是一場關(guān)于AI降本路徑的底層邏輯大碰撞。
當(dāng)AI全面駛?cè)搿巴评頃r(shí)代”,這場爭奪定價(jià)權(quán)的“Token戰(zhàn)”已正式打響。
圖片來源:每日經(jīng)濟(jì)新聞
在2026年的GTC大會(huì)上,黃仁勛用近兩個(gè)小時(shí)的主題演講,為AI行業(yè)的下一階段競爭劃定了賽道——推理(Inference)。
黃仁勛強(qiáng)調(diào),隨著AI從簡單的聊天機(jī)器人演進(jìn)到能自主完成任務(wù)的智能體(Agentic AI),AI行業(yè)的核心工作正從一次性的模型訓(xùn)練,轉(zhuǎn)向持續(xù)不斷地運(yùn)行模型以生成結(jié)果,即推理。
每一次AI的問答、創(chuàng)作或分析背后,都是模型對(duì)Token的處理和生成。
Token是AI處理信息的最小數(shù)據(jù)單元,可以是一個(gè)單詞的一部分,也可以是圖像的像素塊。黃仁勛指出,Token是新AI時(shí)代的基礎(chǔ)構(gòu)建單元,而AI應(yīng)用的價(jià)值也越來越多地體現(xiàn)在持續(xù)、高效地生成Token上。
基于這一判斷,黃仁勛重提他早在2024年就提出的概念:“AI Token工廠”。
圖片來源:黃仁勛演講視頻截圖
他認(rèn)為,數(shù)據(jù)中心的角色已經(jīng)發(fā)生了根本性轉(zhuǎn)變。
“在上次工業(yè)革命中,進(jìn)入工廠的原材料是水,出來的產(chǎn)品是電。”黃仁勛在2024年的GTC大會(huì)上曾說,“如今,進(jìn)入這些(服務(wù)器)房間的原材料是數(shù)據(jù)和電力,出來的則是Token。這些Token雖然無形,但非常有價(jià)值,將被分發(fā)到世界各地”。
這個(gè)概念的轉(zhuǎn)變至關(guān)重要。過去,數(shù)據(jù)中心一直被視為企業(yè)的“成本中心和資本支出”,但黃仁勛試圖讓市場接受一種新的經(jīng)濟(jì)模型:算力直接與收入掛鉤。“如果沒有算力,就沒有Token;沒有Token,就沒有收入”。在這種模型下,“AI Token工廠”的效率,將成為衡量云服務(wù)商和AI公司的核心經(jīng)營指標(biāo)。
黃仁勛給出了一個(gè)驚人的預(yù)測,到2027年,AI計(jì)算基礎(chǔ)設(shè)施的市場規(guī)??赡軙?huì)接近1萬億美元。一年前,英偉達(dá)給出的預(yù)期數(shù)字還只是5000億美元。黃仁勛解釋說,無論是初創(chuàng)公司還是大型企業(yè),對(duì)算力的需求都在激增,“如果他們能獲得更多算力,就能生成更多Token,他們的收入就會(huì)提升”。
在以提高Token生產(chǎn)效率為目標(biāo)的戰(zhàn)場上,誰能以最低成本生成Token,誰就掌握了主導(dǎo)權(quán)。黃仁勛在演講中毫不諱言英偉達(dá)的雄心,他手舉一條印有“InferenceX”(推理之王)的冠軍腰帶,并多次強(qiáng)調(diào)英偉達(dá)通過軟硬件的“極致協(xié)同設(shè)計(jì)”(Extreme Co-design),實(shí)現(xiàn)了全球最低的Token成本,自封為“Token國王”。
為了在自己定義的“推理時(shí)代”中鞏固領(lǐng)先地位,英偉達(dá)在本次GTC上重點(diǎn)提及了自己的下一代AI計(jì)算平臺(tái)——Vera Rubin。
黃仁勛宣稱,Vera Rubin平臺(tái)將帶來一次“代際飛躍”,其每瓦特的推理性能是上一代Grace Blackwell的10倍,能夠?qū)⑸蒚oken的成本降低約90%。在AI應(yīng)用能耗問題日益凸顯的當(dāng)下,這一能效比的巨大提升顯得尤為關(guān)鍵。
此外,英偉達(dá)還首次詳細(xì)披露了其整合Groq技術(shù)的成果。Groq是一家由谷歌TPU(張量處理單元)創(chuàng)始人創(chuàng)立的公司,英偉達(dá)在2025年12月斥資200億美元收購了其大部分資產(chǎn)。Groq的核心技術(shù)是一種確定性數(shù)據(jù)流處理器(LPU),專為低延遲推理而設(shè)計(jì)。
英偉達(dá)創(chuàng)造了一種創(chuàng)新的混合架構(gòu)。在這套系統(tǒng)中,推理過程中需要大量算力和內(nèi)存的任務(wù)在Vera Rubin GPU上完成;而對(duì)速度要求極高的任務(wù),即最終生成Token的步驟,則交由Groq的LPU處理。
黃仁勛表示,Vera Rubin與Groq LPU的組合可以將推理性能提升高達(dá)35倍。這種“GPU負(fù)責(zé)高吞吐,LPU負(fù)責(zé)低延遲”的混合模式,旨在應(yīng)對(duì)不同AI任務(wù)對(duì)成本、延遲和吞吐量的復(fù)雜要求,幫助客戶在不同價(jià)值層級(jí)的Token生成中找到最佳平衡點(diǎn)。黃仁勛表示:“如果你的工作主要是高吞吐,100%使用Vera Rubin;如果你有大量高價(jià)值的編程級(jí)別的Token生成需求,拿出25%的數(shù)據(jù)中心規(guī)模給Groq。”
圖片來源:黃仁勛演講視頻截圖
英偉達(dá)的野心不止于芯片。從Vera Rubin GPU、Vera CPU,到BlueField 4存儲(chǔ)系統(tǒng)、CPO Spectrum X光學(xué)交換機(jī),再到名為Kyber的全新液冷機(jī)架系統(tǒng),英偉達(dá)展示了一套從芯片到系統(tǒng)的全棧解決方案。黃仁勛在演講中反復(fù)強(qiáng)調(diào),加速計(jì)算不是一個(gè)芯片問題,而是一個(gè)系統(tǒng)問題,必須進(jìn)行垂直整合。
為了讓“AI工廠”的建設(shè)更加標(biāo)準(zhǔn)化,英偉達(dá)甚至推出了名為NVIDIA DSX的數(shù)字孿生平臺(tái)。該平臺(tái)基于其Omniverse技術(shù),允許客戶在虛擬世界中規(guī)劃、設(shè)計(jì)和模擬整個(gè)吉瓦級(jí)AI工廠的運(yùn)行,包括機(jī)械、熱學(xué)、電氣和網(wǎng)絡(luò)系統(tǒng),甚至可以與電網(wǎng)協(xié)同進(jìn)行節(jié)能調(diào)度,以求在設(shè)計(jì)階段就將效率最大化。
圖片來源:黃仁勛演講視頻截圖
通過定義Token經(jīng)濟(jì)、發(fā)布降本硬件、推出全棧方案乃至制定建廠標(biāo)準(zhǔn),英偉達(dá)正試圖定義整個(gè)AI工廠的構(gòu)建模式,將自己從一個(gè)芯片供應(yīng)商,升級(jí)為AI時(shí)代的“工廠架構(gòu)師、操作系統(tǒng)供應(yīng)商和通行費(fèi)征收者”。
就在黃仁勛描繪“將Token成本降低90%”的宏偉藍(lán)圖時(shí),中國的AI大模型廠商早已憑借性價(jià)比優(yōu)勢,在全球市場領(lǐng)跑。
2026年以來,OpenClaw的出現(xiàn)讓全球AI大模型的Token消耗量相比于“聊天機(jī)器人”時(shí)代呈指數(shù)級(jí)提升。
因此,開發(fā)者和用戶對(duì)于大模型Token價(jià)格更加敏感。憑借僅為國外大模型1/6~1/10的Token價(jià)格,中國大模型成為全球智能體(AI Agent)用戶的優(yōu)先選擇。
全球最大的AI大模型API聚合平臺(tái)OpenRouter數(shù)據(jù)顯示,今年2月9日~15日當(dāng)周,中國AI大模型以4.12萬億的Token調(diào)用量,首次超過同期美國AI大模型的2.94萬億Token。到3月9日~15日當(dāng)周,上榜的AI大模型中,中國AI大模型的周調(diào)用量上升至4.69萬億Token,再次連續(xù)兩周超越美國。

而且,在調(diào)用量排名前列的AI大模型中,中國AI大模型持續(xù)占據(jù)多數(shù)。

此前,OpenClaw默認(rèn)選擇Claude4.5大模型,但有部分開發(fā)者認(rèn)為其成本較高。而中國AI大模型運(yùn)營實(shí)際成本遠(yuǎn)低于美國AI大模型。
根據(jù)Artificial Analysis數(shù)據(jù),以Minimax M2.5為例,運(yùn)行一輪Artificial Analysis測試成本僅需125美元,而以Claude Opus 4.6運(yùn)行一輪測試需要4970美元,使用GPT5.2-Codex測試一輪也需要花費(fèi)3244美元。
中國AI大模型成本低,首先是因?yàn)門oken價(jià)格低。比如,Minimax M2.5輸入和輸出價(jià)格僅為Claude Opus的6%和5%,是GPT5.2 Codex(xhigh)的17%和9%;

其次,單次運(yùn)行測試所消耗的Token量少。以Minimax M2.5為例,運(yùn)行一次測試消耗的Token量為58M,僅為Claude Opus的36%和GPT5.2-Codex(xhigh)的29%。

雖然價(jià)格便宜,但國產(chǎn)AI大模型的能力并不低。
根據(jù)Artificial Analysis上對(duì)代碼能力的評(píng)分,智譜GLM-5、Kimi K2.5和MiniMax 2.5在代碼測試集上分別得分44、40、37分,與GPT-5.1(high)、Claude 4.5 Sonnet持平。

國產(chǎn)AI大模型的性價(jià)比優(yōu)勢得益于兩個(gè)方面。首先是推理架構(gòu)。
2025年后,DeepSeek通過一套協(xié)同創(chuàng)新實(shí)現(xiàn)高效:Multi-Head Latent Attention(多頭潛在注意力,MLA))大幅壓縮KV緩存。Mixture-of-Experts(專家混合,MoE)架構(gòu)、FP8混合精度訓(xùn)練、Multi Token Prediction(多Token預(yù)測,MTP),以及從DeepSeek-R1推理大模型蒸餾的知識(shí)。這套架構(gòu)使其能在受限GPU上實(shí)現(xiàn)接近最先進(jìn)的水平。
Kimi K2.5、智譜GLM5等大模型延續(xù)了DeepSeek思路,降低了推理成本。
電力成本優(yōu)勢是國產(chǎn)大模型高性價(jià)比的另一個(gè)原因。
申萬宏源計(jì)算機(jī)分析師測算,使用中國數(shù)據(jù)中心電力,理論上一張英偉達(dá)B200人工智能芯片每年可以節(jié)省900美元。2026年預(yù)計(jì)H200/B200及同級(jí)別芯片出貨量超1500萬顆,理論上全球每年電價(jià)可節(jié)省空間為百億美元。

單張GPU芯片推理作業(yè)中生成的Tokens及電價(jià)消耗量測算
國信證券分析師在研報(bào)中指出,相較于訓(xùn)練端比拼最先進(jìn)芯片、超大規(guī)模集群和長周期前置投入,推理更看重用戶生態(tài)、電力、網(wǎng)絡(luò)和調(diào)度效率等方面,中國與美國的芯片差距被縮小。
免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請核實(shí)。據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
封面圖片來源:黃仁勛演講視頻截圖
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP