Google 發布 Gemini 3.1 Pro，ARC-AGI-2 推理跑分較前代翻倍至 77.1%，在 1 […] 〈Google 推出 Gemini 3.1 Pro：推理能力三個月翻倍、API定價不變、TPU自有晶片優勢〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。Google 發布 Gemini 3.1 Pro，ARC-AGI-2 推理跑分較前代翻倍至 77.1%，在 1 […] 〈Google 推出 Gemini 3.1 Pro：推理能力三個月翻倍、API定價不變、TPU自有晶片優勢〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

Google 推出 Gemini 3.1 Pro：推理能力三個月翻倍、API定價不變、TPU自有晶片優勢

作者：Blocktempo

來源：Blocktempo ZH

2026/02/20 10:55

閱讀時長 7 分鐘

1$0.0003233-6.12%

ARC$0.000511-0.38%

AGI$0.0134+6.68%

如需對本內容提供反饋或相關疑問，請通過郵箱 [email protected] 聯絡我們。

Google 發布 Gemini 3.1 Pro，ARC-AGI-2 推理跑分較前代翻倍至 77.1%，在 16 項基準中拿下 13 項冠軍，API 定價不變，AI 軍備競賽正加速壓縮每一代模型的生命週期。（前情提要：Gemini 上線免費「SAT 模擬考」功能，AI 家教提供個人化學習指南）（背景補充：Google 正式推出「Gemini 3」！登頂全球最聰明 AI 模型，有什麼亮點？） Google 昨 (19) 日深夜正式發布 Gemini 3.1 Pro 預覽版，在 ARC-AGI-2（測量模型解決全新問題時的邏輯能力）上，3.1 Pro 拿下 77.1%，較前代 Gemini 3 Pro 翻了一倍有餘。下圖在 Google 列出評估的 16 項基準中，3.1 Pro 拿下了 13 項第一。其他關鍵跑分同樣令人注意：GPQA Diamond（專家級科學知識）94.3%、SWE-Bench Verified（自主程式碼修復）80.6%、Humanity’s Last Exam 44.4%、MMMLU 92.6%。在 MCP Atlas（測量多步驟工具使用工作流程的基準）上，3.1 Pro 達到 69.2%，領先 Claude 和 GPT-5.2 近 10 個百分點。「可調式推理」：讓開發者自己決定模型要多聰明 Gemini 3.1 Pro 具戰略意義的新功能是三級思考深度系統（thinking level）。開發者可以在 low、medium、high 三檔之間切換模型的「推理預算」，處理簡單 API 呼叫時用低檔節省延遲和成本，遇到複雜除錯時切到高檔。當設定為 high 時，3.1 Pro 的行為接近 Google 的專用推理模型 Gemini Deep Think 的「迷你版」。VentureBeat 的評測形容這是「隨需求啟動的 Deep Think Mini」。在 BrowseComp（測量 AI 代理自主網頁搜尋能力的基準）上，3.1 Pro 從前代的 59.2% 飆升至 85.9%。一個能自己上網搜資料、多步驟完成任務、且推理精準度大幅提升的 AI 代理，這正是整個 AI 產業押注的方向。定價不變，效能翻倍：誰在補貼這場戰爭？ API 定價維持每百萬輸入 token 2 美元、每百萬輸出 token 12 美元，與 Gemini 3 Pro 完全一致。換算下來，Gemini 3.1 Pro 的輸入成本比 Claude Opus 4.6 低 60%，輸出成本低 52%。效能翻倍但定價不變，Google 正在用「性價比壓制」的打法搶佔開發者市場。上下文視窗維持 100 萬 token（是 Claude 的 5 倍、GPT-5 的 2.5 倍），輸出上限從前代擴展至 65,000 token，單次 API 上傳限制從 20MB 提升至 100MB，甚至支援直接傳入 YouTube URL 讓模型「觀看」影片。不漲價的策略背後，也是 Google 在自研 TPU 晶片和雲端基礎設施上的結構性成本優勢。Google 用行動表明：在 AI 軍備競賽中，有自己的晶片就是最大的護城河。沒有贏家通吃，但有明確的競爭格局當然，Gemini 3.1 Pro 並非在所有領域都是冠軍。 Claude Sonnet 4.6（Thinking Max 模式）在長上下文記憶（MRCR v2）上與 3.1 Pro 打平，在 GDPval-AA Elo 專家任務上則大幅領先（1633 vs 1317）。 OpenAI 的 GPT-5.3-Codex 在終端機編程任務（Terminal-Bench 2.0）上以 77.3% 領先 3.1 Pro 的 68.5%。Claude 系列的幻覺率（約 3%）也顯著低於 Gemini 和 GPT（平均約 6%）。 2026 年的 AI 競賽格局是：Google 在推理和代理任務上領跑，Anthropic 在精準度和安全性上佔優，OpenAI 在程式碼生成和生態系統上保持優勢。沒有贏家通吃，但可能「每三個月就洗牌一次」。 AI 模型的軍備競賽不會停下來。唯一的問題是，這場競賽的收益最終歸誰：是開發者、是平台、還是最終寫出最大支票的人。 Google 今天的答案是：先讓開發者用得起，再談其他的。這個策略其在雲端運算時代奏效過一次，這次能不能再奏效，取決於 AI 是否真的能為企業創造足以回本的價值，而不只是創造更高的基準分數。相關報導 Telegram 創辦人宣布「AI 算力網路 Cocoon」上線：可用 GPU 挖 TON、100% 隱私運算馬斯克預測：3年內AI將解決38兆美元美債，20年後人類已不需要工作李飛飛談 LLM 下一步：AI 須擁有「空間智慧」才能理解真實世界，Marble 模型如何實現？〈Google 推出 Gemini 3.1 Pro：推理能力三個月翻倍、API定價不變、TPU自有晶片優勢〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。