Gemini 3 Deep Think 大升級,學術基準測試勝 Claude Opus 4.6、GPT-5.2

作者 | 發布日期 2026 年 02 月 13 日 13:14 | 分類 AI 人工智慧 , Gemini , Google line share Linkedin share follow us in feedly line share
Loading...
Gemini 3 Deep Think 大升級,學術基準測試勝 Claude Opus 4.6、GPT-5.2

Deep Think 可說是 Google 為 Gemini 打造的一種進階推理模式,以解決科學、研究及工程領域的挑戰。現在 Google 推出 Gemini 3 Deep Think 重大升級,在學術基準測試勝過 Claude Opus 4.6GPT-5.2

Google 去年展示專門設計的 Deep Think,成功應對多項棘手的推理挑戰,在世界級的數學與程式設計競賽達到金牌水準。近期,Deep Think 也讓專門代理能進行研究級數學探索。

升級後的 Deep Think 持續突破邊界,在最嚴格的學術基準測試拿下高分,包括:

  • 在測試先進模型極限的基準測試 Humanity’s Last Exam,以不使用任何工具的情況創下 48.4% 新紀錄。
  • 在 ARC-AGI-2 測驗取得前所未有的 84.6% 成績,並經 ARC Prize 基金會認證。
  • 由競賽型程式設計挑戰構成的 Codeforces 基準測試,取得高達 3,455 的 Elo 分數。
  • 在 2025 年國際數學奧林匹亞競賽達到金牌水準表現。

▲ 在 Gemini 3 Deep Think 學術基準測試結果勝過 Claude Opus 4.6、GPT-5.2。

除數學與程式設計外,升級後的 Deep Think 也在化學與物理等科學領域展現卓越能力。在 2025 年國際物理奧林匹亞與化學奧林匹亞的筆試部分皆達到金牌等級,同時展現進階理論物理能力,在 CMT-Benchmark 取得 50.5% 成績。

不僅擁有最先進的性能表現,Deep Think 也為推動實際應用而設計,使研究人員能解析複雜數據,並讓工程師透過程式碼對實體系統進行建模。

Gemini 3 Deep Think 在 Gemini 應用程式向 Google AI Ultra 訂閱用戶開放使用。同時,Google 首次透過 Gemini API 向特定研究人員、工程師及企業客戶提供 Deep Think。

(圖片來源:Google Blog

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》