Google 發布 Gemini 3.1 Pro,ARC-AGI-2 推理跑分較前代翻倍至 77.1%,在 1 […] 〈Google 推出 Gemini 3.1 Pro:推理能力三個月翻倍、API定價不變、TPU自有晶片優勢〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。Google 發布 Gemini 3.1 Pro,ARC-AGI-2 推理跑分較前代翻倍至 77.1%,在 1 […] 〈Google 推出 Gemini 3.1 Pro:推理能力三個月翻倍、API定價不變、TPU自有晶片優勢〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

Google 推出 Gemini 3.1 Pro:推理能力三個月翻倍、API定價不變、TPU自有晶片優勢

2026/02/20 10:55
閱讀時長 7 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 [email protected] 聯絡我們。
Google 發布 Gemini 3.1 Pro,ARC-AGI-2 推理跑分較前代翻倍至 77.1%,在 16 項基準中拿下 13 項冠軍,API 定價不變,AI 軍備競賽正加速壓縮每一代模型的生命週期。 (前情提要:Gemini 上線免費「SAT 模擬考」功能,AI 家教提供個人化學習指南 ) (背景補充:Google 正式推出「Gemini 3」!登頂全球最聰明 AI 模型,有什麼亮點?)   Google 昨 (19) 日深夜正式發布 Gemini 3.1 Pro 預覽版,在 ARC-AGI-2(測量模型解決全新問題時的邏輯能力)上,3.1 Pro 拿下 77.1%,較前代 Gemini 3 Pro 翻了一倍有餘。 下圖在 Google 列出評估的 16 項基準中,3.1 Pro 拿下了 13 項第一。 其他關鍵跑分同樣令人注意:GPQA Diamond(專家級科學知識)94.3%、SWE-Bench Verified(自主程式碼修復)80.6%、Humanity’s Last Exam 44.4%、MMMLU 92.6%。 在 MCP Atlas(測量多步驟工具使用工作流程的基準)上,3.1 Pro 達到 69.2%,領先 Claude 和 GPT-5.2 近 10 個百分點。 「可調式推理」:讓開發者自己決定模型要多聰明 Gemini 3.1 Pro 具戰略意義的新功能是三級思考深度系統(thinking level)。開發者可以在 low、medium、high 三檔之間切換模型的「推理預算」,處理簡單 API 呼叫時用低檔節省延遲和成本,遇到複雜除錯時切到高檔。 當設定為 high 時,3.1 Pro 的行為接近 Google 的專用推理模型 Gemini Deep Think 的「迷你版」。VentureBeat 的評測形容這是「隨需求啟動的 Deep Think Mini」。 在 BrowseComp(測量 AI 代理自主網頁搜尋能力的基準)上,3.1 Pro 從前代的 59.2% 飆升至 85.9%。一個能自己上網搜資料、多步驟完成任務、且推理精準度大幅提升的 AI 代理,這正是整個 AI 產業押注的方向。 定價不變,效能翻倍:誰在補貼這場戰爭? API 定價維持每百萬輸入 token 2 美元、每百萬輸出 token 12 美元,與 Gemini 3 Pro 完全一致。換算下來,Gemini 3.1 Pro 的輸入成本比 Claude Opus 4.6 低 60%,輸出成本低 52%。 效能翻倍但定價不變,Google 正在用「性價比壓制」的打法搶佔開發者市場。 上下文視窗維持 100 萬 token(是 Claude 的 5 倍、GPT-5 的 2.5 倍),輸出上限從前代擴展至 65,000 token,單次 API 上傳限制從 20MB 提升至 100MB,甚至支援直接傳入 YouTube URL 讓模型「觀看」影片。 不漲價的策略背後,也是 Google 在自研 TPU 晶片和雲端基礎設施上的結構性成本優勢。Google 用行動表明:在 AI 軍備競賽中,有自己的晶片就是最大的護城河。 沒有贏家通吃,但有明確的競爭格局 當然,Gemini 3.1 Pro 並非在所有領域都是冠軍。 Claude Sonnet 4.6(Thinking Max 模式)在長上下文記憶(MRCR v2)上與 3.1 Pro 打平,在 GDPval-AA Elo 專家任務上則大幅領先(1633 vs 1317)。 OpenAI 的 GPT-5.3-Codex 在終端機編程任務(Terminal-Bench 2.0)上以 77.3% 領先 3.1 Pro 的 68.5%。Claude 系列的幻覺率(約 3%)也顯著低於 Gemini 和 GPT(平均約 6%)。 2026 年的 AI 競賽格局是:Google 在推理和代理任務上領跑,Anthropic 在精準度和安全性上佔優,OpenAI 在程式碼生成和生態系統上保持優勢。沒有贏家通吃,但可能「每三個月就洗牌一次」。 AI 模型的軍備競賽不會停下來。唯一的問題是,這場競賽的收益最終歸誰:是開發者、是平台、還是最終寫出最大支票的人。 Google 今天的答案是:先讓開發者用得起,再談其他的。這個策略其在雲端運算時代奏效過一次,這次能不能再奏效,取決於 AI 是否真的能為企業創造足以回本的價值,而不只是創造更高的基準分數。 相關報導 Telegram 創辦人宣布「AI 算力網路 Cocoon」上線:可用 GPU 挖 TON、100% 隱私運算 馬斯克預測:3年內AI將解決38兆美元美債,20年後人類已不需要工作 李飛飛談 LLM 下一步:AI 須擁有「空間智慧」才能理解真實世界,Marble 模型如何實現? 〈Google 推出 Gemini 3.1 Pro:推理能力三個月翻倍、API定價不變、TPU自有晶片優勢〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

您可能也會喜歡

奈及利亞卡片市場已破損。以下是最接近修復它的人

奈及利亞卡片市場已破損。以下是最接近修復它的人

在《偷天換日》中有一幕,劇組花了數月時間策劃一場精心設計的搶劫,結果…… 這篇文章《奈及利亞卡片市場已經崩壞。以下是誰最接近》
分享
Technext2026/03/18 00:36
美國反恐中心主任辭職「反對美伊戰爭」:伊朗無威脅,是以色列騙我們開戰

美國反恐中心主任辭職「反對美伊戰爭」:伊朗無威脅,是以色列騙我們開戰

據外媒 Axios 最新報導,美國國家反恐中心(NCTC)主任、情報總監 Tulsi Gabbard 的核心幕 […] 〈美國反恐中心主任辭職「反對美伊戰爭」:伊朗無威脅,是以色列騙我們開戰〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。
分享
Blocktempo ZH2026/03/17 23:30
香港投資控股公司進軍比特幣挖礦

香港投資控股公司進軍比特幣挖礦

香港投資控股公司進軍比特幣挖礦的文章發表在BitcoinEthereumNews.com上。根據Coinidol.com的報導,香港上市公司DL Holdings Group正以2,185萬美元的可轉換債券交易全力投入比特幣挖礦領域。 該公司通過與Fortune Peak的合作,計劃收購超過2,200台先進的比特幣礦機,初步目標是每年生產約200 BTC。這一行動是更廣泛戰略的一部分,旨在未來兩年內建立超過4,000 BTC的比特幣儲備,使其成為亞洲市場領先的比特幣算力股票。 亞洲公司整合加密貨幣 通過參與挖礦,DL Holdings不僅獲取比特幣,還從零開始產生收入並建立其數字資產敞口。使用零息可轉換債券為收購提供資金是傳統金融與加密行業的一個引人入勝的交匯點,展示了公司如何找到創新方式為其數字資產策略融資。 這些步驟表明,包括亞洲在內的更多企業將比特幣視為不僅是投機性持有,而是可用於多元化其資產負債表並提升股東價值的長期戰略資產。來源:https://coinidol.com/hong-kong-bitcoin-mining/
分享
BitcoinEthereumNews2025/09/19 02:00