要聞

AI駛?cè)搿巴评頃r(shí)代”：英偉達(dá)欲加冕“Token國(guó)王”，中國(guó)大模型已憑性價(jià)比搶跑

2026-03-17 17:53:10

當(dāng)?shù)貢r(shí)間3月16日，英偉達(dá)CEO黃仁勛在GTC大會(huì)上提出“AI Token工廠”概念，指出AI競(jìng)爭(zhēng)核心已轉(zhuǎn)向推理和Token生成效率，預(yù)計(jì)2027年市場(chǎng)規(guī)模近萬(wàn)億美元。英偉達(dá)發(fā)布新一代Vera Rubin平臺(tái)，欲降Token成本90%。與此同時(shí)，中國(guó)AI廠商憑借性價(jià)比優(yōu)勢(shì)，已在全球推理市場(chǎng)拿下定價(jià)權(quán)，周調(diào)用量多次超越美國(guó)同行。

每經(jīng)記者｜岳楚鵬王嘉琦每經(jīng)編輯｜高涵

“推理的拐點(diǎn)已然到來(lái)?！?/p>

當(dāng)?shù)貢r(shí)間3月16日，在美國(guó)圣何塞舉行的GTC（GPU技術(shù)大會(huì)）上，英偉達(dá)CEO黃仁勛為全球AI競(jìng)賽劃定了全新的戰(zhàn)場(chǎng)。

在這場(chǎng)萬(wàn)眾矚目的演講中，黃仁勛拋出了一個(gè)新的商業(yè)概念——“AI Token工廠”。

他指出，隨著AI大模型從單純的“聊天工具”進(jìn)化為“自主執(zhí)行任務(wù)的智能體（Agent）”，AI的核心戰(zhàn)事已從一次性的模型訓(xùn)練，全面轉(zhuǎn)向持續(xù)、海量的Token生成（即推理）。

在這個(gè)規(guī)模到2027年或?qū)⒏哌_(dá)萬(wàn)億美元的新市場(chǎng)里，誰(shuí)能把Token的生產(chǎn)成本降到最低，誰(shuí)就能加冕為“Token國(guó)王”。

圖片來(lái)源：黃仁勛演講視頻截圖

為此，英偉達(dá)祭出了能將生成Token成本暴降90%的新一代Vera Rubin計(jì)算平臺(tái)。

就在黃仁勛高呼“降本”的同時(shí)，中國(guó)AI廠商已在推理市場(chǎng)上悄然拿下了全球定價(jià)權(quán)。

數(shù)據(jù)顯示，自2026年2月以來(lái)，伴隨著OpenClaw等智能體應(yīng)用引發(fā)的Token消耗量狂飆，中國(guó)AI大模型憑借極致的性價(jià)比——僅為國(guó)外競(jìng)品1/6至1/10的Token單價(jià)，在全球最大的API聚合平臺(tái)OpenRouter上，周調(diào)用量已連續(xù)多次強(qiáng)勢(shì)反超美國(guó)同行，并長(zhǎng)期霸榜。

這絕非一場(chǎng)簡(jiǎn)單的市場(chǎng)份額易手，而是一場(chǎng)關(guān)于AI降本路徑的底層邏輯大碰撞。

當(dāng)AI全面駛?cè)搿巴评頃r(shí)代”，這場(chǎng)爭(zhēng)奪定價(jià)權(quán)的“Token戰(zhàn)”已正式打響。

圖片來(lái)源：每日經(jīng)濟(jì)新聞

黃仁勛定調(diào)新戰(zhàn)場(chǎng)：AI競(jìng)爭(zhēng)核心已從訓(xùn)練轉(zhuǎn)向Token生產(chǎn)效率

在2026年的GTC大會(huì)上，黃仁勛用近兩個(gè)小時(shí)的主題演講，為AI行業(yè)的下一階段競(jìng)爭(zhēng)劃定了賽道——推理（Inference）。

黃仁勛強(qiáng)調(diào)，隨著AI從簡(jiǎn)單的聊天機(jī)器人演進(jìn)到能自主完成任務(wù)的智能體（Agentic AI），AI行業(yè)的核心工作正從一次性的模型訓(xùn)練，轉(zhuǎn)向持續(xù)不斷地運(yùn)行模型以生成結(jié)果，即推理。

每一次AI的問答、創(chuàng)作或分析背后，都是模型對(duì)Token的處理和生成。

Token是AI處理信息的最小數(shù)據(jù)單元，可以是一個(gè)單詞的一部分，也可以是圖像的像素塊。黃仁勛指出，Token是新AI時(shí)代的基礎(chǔ)構(gòu)建單元，而AI應(yīng)用的價(jià)值也越來(lái)越多地體現(xiàn)在持續(xù)、高效地生成Token上。

基于這一判斷，黃仁勛重提他早在2024年就提出的概念：“AI Token工廠”。

圖片來(lái)源：黃仁勛演講視頻截圖

他認(rèn)為，數(shù)據(jù)中心的角色已經(jīng)發(fā)生了根本性轉(zhuǎn)變。

“在上次工業(yè)革命中，進(jìn)入工廠的原材料是水，出來(lái)的產(chǎn)品是電?！秉S仁勛在2024年的GTC大會(huì)上曾說(shuō)，“如今，進(jìn)入這些（服務(wù)器）房間的原材料是數(shù)據(jù)和電力，出來(lái)的則是Token。這些Token雖然無(wú)形，但非常有價(jià)值，將被分發(fā)到世界各地”。

這個(gè)概念的轉(zhuǎn)變至關(guān)重要。過(guò)去，數(shù)據(jù)中心一直被視為企業(yè)的“成本中心和資本支出”，但黃仁勛試圖讓市場(chǎng)接受一種新的經(jīng)濟(jì)模型：算力直接與收入掛鉤?！叭绻麤]有算力，就沒有Token；沒有Token，就沒有收入”。在這種模型下，“AI Token工廠”的效率，將成為衡量云服務(wù)商和AI公司的核心經(jīng)營(yíng)指標(biāo)。

黃仁勛給出了一個(gè)驚人的預(yù)測(cè)，到2027年，AI計(jì)算基礎(chǔ)設(shè)施的市場(chǎng)規(guī)模可能會(huì)接近1萬(wàn)億美元。一年前，英偉達(dá)給出的預(yù)期數(shù)字還只是5000億美元。黃仁勛解釋說(shuō)，無(wú)論是初創(chuàng)公司還是大型企業(yè)，對(duì)算力的需求都在激增，“如果他們能獲得更多算力，就能生成更多Token，他們的收入就會(huì)提升”。

在以提高Token生產(chǎn)效率為目標(biāo)的戰(zhàn)場(chǎng)上，誰(shuí)能以最低成本生成Token，誰(shuí)就掌握了主導(dǎo)權(quán)。黃仁勛在演講中毫不諱言英偉達(dá)的雄心，他手舉一條印有“InferenceX”（推理之王）的冠軍腰帶，并多次強(qiáng)調(diào)英偉達(dá)通過(guò)軟硬件的“極致協(xié)同設(shè)計(jì)”（Extreme Co-design），實(shí)現(xiàn)了全球最低的Token成本，自封為“Token國(guó)王”。

英偉達(dá)發(fā)布新一代AI平臺(tái)Vera Rubin，欲將Token成本降低90%

為了在自己定義的“推理時(shí)代”中鞏固領(lǐng)先地位，英偉達(dá)在本次GTC上重點(diǎn)提及了自己的下一代AI計(jì)算平臺(tái)——Vera Rubin。

黃仁勛宣稱，Vera Rubin平臺(tái)將帶來(lái)一次“代際飛躍”，其每瓦特的推理性能是上一代Grace Blackwell的10倍，能夠?qū)⑸蒚oken的成本降低約90%。在AI應(yīng)用能耗問題日益凸顯的當(dāng)下，這一能效比的巨大提升顯得尤為關(guān)鍵。

此外，英偉達(dá)還首次詳細(xì)披露了其整合Groq技術(shù)的成果。Groq是一家由谷歌TPU（張量處理單元）創(chuàng)始人創(chuàng)立的公司，英偉達(dá)在2025年12月斥資200億美元收購(gòu)了其大部分資產(chǎn)。Groq的核心技術(shù)是一種確定性數(shù)據(jù)流處理器（LPU），專為低延遲推理而設(shè)計(jì)。

英偉達(dá)創(chuàng)造了一種創(chuàng)新的混合架構(gòu)。在這套系統(tǒng)中，推理過(guò)程中需要大量算力和內(nèi)存的任務(wù)在Vera Rubin GPU上完成；而對(duì)速度要求極高的任務(wù)，即最終生成Token的步驟，則交由Groq的LPU處理。

黃仁勛表示，Vera Rubin與Groq LPU的組合可以將推理性能提升高達(dá)35倍。這種“GPU負(fù)責(zé)高吞吐，LPU負(fù)責(zé)低延遲”的混合模式，旨在應(yīng)對(duì)不同AI任務(wù)對(duì)成本、延遲和吞吐量的復(fù)雜要求，幫助客戶在不同價(jià)值層級(jí)的Token生成中找到最佳平衡點(diǎn)。黃仁勛表示：“如果你的工作主要是高吞吐，100%使用Vera Rubin；如果你有大量高價(jià)值的編程級(jí)別的Token生成需求，拿出25%的數(shù)據(jù)中心規(guī)模給Groq。”

圖片來(lái)源：黃仁勛演講視頻截圖

英偉達(dá)的野心不止于芯片。從Vera Rubin GPU、Vera CPU，到BlueField 4存儲(chǔ)系統(tǒng)、CPO Spectrum X光學(xué)交換機(jī)，再到名為Kyber的全新液冷機(jī)架系統(tǒng)，英偉達(dá)展示了一套從芯片到系統(tǒng)的全棧解決方案。黃仁勛在演講中反復(fù)強(qiáng)調(diào)，加速計(jì)算不是一個(gè)芯片問題，而是一個(gè)系統(tǒng)問題，必須進(jìn)行垂直整合。

為了讓“AI工廠”的建設(shè)更加標(biāo)準(zhǔn)化，英偉達(dá)甚至推出了名為NVIDIA DSX的數(shù)字孿生平臺(tái)。該平臺(tái)基于其Omniverse技術(shù)，允許客戶在虛擬世界中規(guī)劃、設(shè)計(jì)和模擬整個(gè)吉瓦級(jí)AI工廠的運(yùn)行，包括機(jī)械、熱學(xué)、電氣和網(wǎng)絡(luò)系統(tǒng)，甚至可以與電網(wǎng)協(xié)同進(jìn)行節(jié)能調(diào)度，以求在設(shè)計(jì)階段就將效率最大化。

圖片來(lái)源：黃仁勛演講視頻截圖

通過(guò)定義Token經(jīng)濟(jì)、發(fā)布降本硬件、推出全棧方案乃至制定建廠標(biāo)準(zhǔn)，英偉達(dá)正試圖定義整個(gè)AI工廠的構(gòu)建模式，將自己從一個(gè)芯片供應(yīng)商，升級(jí)為AI時(shí)代的“工廠架構(gòu)師、操作系統(tǒng)供應(yīng)商和通行費(fèi)征收者”。

憑借架構(gòu)創(chuàng)新和電力優(yōu)勢(shì)實(shí)現(xiàn)低價(jià)Token，中國(guó)AI已領(lǐng)跑全球市場(chǎng)

就在黃仁勛描繪“將Token成本降低90%”的宏偉藍(lán)圖時(shí)，中國(guó)的AI大模型廠商早已憑借性價(jià)比優(yōu)勢(shì)，在全球市場(chǎng)領(lǐng)跑。

2026年以來(lái)，OpenClaw的出現(xiàn)讓全球AI大模型的Token消耗量相比于“聊天機(jī)器人”時(shí)代呈指數(shù)級(jí)提升。

因此，開發(fā)者和用戶對(duì)于大模型Token價(jià)格更加敏感。憑借僅為國(guó)外大模型1/6～1/10的Token價(jià)格，中國(guó)大模型成為全球智能體（AI Agent）用戶的優(yōu)先選擇。

全球最大的AI大模型API聚合平臺(tái)OpenRouter數(shù)據(jù)顯示，今年2月9日~15日當(dāng)周，中國(guó)AI大模型以4.12萬(wàn)億的Token調(diào)用量，首次超過(guò)同期美國(guó)AI大模型的2.94萬(wàn)億Token。到3月9日～15日當(dāng)周，上榜的AI大模型中，中國(guó)AI大模型的周調(diào)用量上升至4.69萬(wàn)億Token，再次連續(xù)兩周超越美國(guó)。

而且，在調(diào)用量排名前列的AI大模型中，中國(guó)AI大模型持續(xù)占據(jù)多數(shù)。

此前，OpenClaw默認(rèn)選擇Claude4.5大模型，但有部分開發(fā)者認(rèn)為其成本較高。而中國(guó)AI大模型運(yùn)營(yíng)實(shí)際成本遠(yuǎn)低于美國(guó)AI大模型。

根據(jù)Artificial Analysis數(shù)據(jù)，以Minimax M2.5為例，運(yùn)行一輪Artificial Analysis測(cè)試成本僅需125美元，而以Claude Opus 4.6運(yùn)行一輪測(cè)試需要4970美元，使用GPT5.2-Codex測(cè)試一輪也需要花費(fèi)3244美元。

中國(guó)AI大模型成本低，首先是因?yàn)門oken價(jià)格低。比如，Minimax M2.5輸入和輸出價(jià)格僅為Claude Opus的6%和5%，是GPT5.2 Codex（xhigh）的17%和9%；

其次，單次運(yùn)行測(cè)試所消耗的Token量少。以Minimax M2.5為例，運(yùn)行一次測(cè)試消耗的Token量為58M，僅為Claude Opus的36%和GPT5.2-Codex（xhigh）的29%。

雖然價(jià)格便宜，但國(guó)產(chǎn)AI大模型的能力并不低。

根據(jù)Artificial Analysis上對(duì)代碼能力的評(píng)分，智譜GLM-5、Kimi K2.5和MiniMax 2.5在代碼測(cè)試集上分別得分44、40、37分，與GPT-5.1(high）、Claude 4.5 Sonnet持平。

國(guó)產(chǎn)AI大模型的性價(jià)比優(yōu)勢(shì)得益于兩個(gè)方面。首先是推理架構(gòu)。

2025年后，DeepSeek通過(guò)一套協(xié)同創(chuàng)新實(shí)現(xiàn)高效：Multi-Head Latent Attention（多頭潛在注意力，MLA)）大幅壓縮KV緩存。Mixture-of-Experts（專家混合，MoE）架構(gòu)、FP8混合精度訓(xùn)練、Multi Token Prediction（多Token預(yù)測(cè)，MTP），以及從DeepSeek-R1推理大模型蒸餾的知識(shí)。這套架構(gòu)使其能在受限GPU上實(shí)現(xiàn)接近最先進(jìn)的水平。

Kimi K2.5、智譜GLM5等大模型延續(xù)了DeepSeek思路，降低了推理成本。

電力成本優(yōu)勢(shì)是國(guó)產(chǎn)大模型高性價(jià)比的另一個(gè)原因。

申萬(wàn)宏源計(jì)算機(jī)分析師測(cè)算，使用中國(guó)數(shù)據(jù)中心電力，理論上一張英偉達(dá)B200人工智能芯片每年可以節(jié)省900美元。2026年預(yù)計(jì)H200/B200及同級(jí)別芯片出貨量超1500萬(wàn)顆，理論上全球每年電價(jià)可節(jié)省空間為百億美元。

單張GPU芯片推理作業(yè)中生成的Tokens及電價(jià)消耗量測(cè)算

國(guó)信證券分析師在研報(bào)中指出，相較于訓(xùn)練端比拼最先進(jìn)芯片、超大規(guī)模集群和長(zhǎng)周期前置投入，推理更看重用戶生態(tài)、電力、網(wǎng)絡(luò)和調(diào)度效率等方面，中國(guó)與美國(guó)的芯片差距被縮小。

免責(zé)聲明：本文內(nèi)容與數(shù)據(jù)僅供參考，不構(gòu)成投資建議，使用前請(qǐng)核實(shí)。據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

封面圖片來(lái)源：黃仁勛演講視頻截圖

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

東莞證券給予北芯生命"增持"評(píng)級(jí)，心血管精準(zhǔn)介入國(guó)產(chǎn)龍頭

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

歐洲斯托克600指數(shù)上漲0.5%，觸及盤中高點(diǎn)

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

手机在线观看av,激情五月综合,色欧美日韩,五月婷中文,国产精品va免费视频,久久久成人综合亚洲欧洲精品,最初的梦想在线观看完整版未删减

AI駛?cè)搿巴评頃r(shí)代”：英偉達(dá)欲加冕“Token國(guó)王”，中國(guó)大模型已憑性價(jià)比搶跑

黃仁勛定調(diào)新戰(zhàn)場(chǎng)：AI競(jìng)爭(zhēng)核心已從訓(xùn)練轉(zhuǎn)向Token生產(chǎn)效率

英偉達(dá)發(fā)布新一代AI平臺(tái)Vera Rubin，欲將Token成本降低90%

憑借架構(gòu)創(chuàng)新和電力優(yōu)勢(shì)實(shí)現(xiàn)低價(jià)Token，中國(guó)AI已領(lǐng)跑全球市場(chǎng)

AI駛?cè)搿巴评頃r(shí)代”：英偉達(dá)欲加冕“Token國(guó)王”，中國(guó)大模型已憑性價(jià)比搶跑