在最新一波數位科技進展中,AI 模型,尤其是 GPT-5.2,正在高階數學領域展現出驚人實力。
這項發現來自軟體工程師 Neel Somani 的實驗。他在測試 OpenAI 新模型時,意外發現系統竟能在 15 分鐘內解出相當複雜的數學問題。Somani 將題目輸入 ChatGPT 後暫時離開,回來時發現模型已經產出一份完整解答,並透過一款名為 Harmonic 的工具進行驗證,結果顯示推理與結論皆正確無誤。
Somani 表示,他原本只是想測試大型語言模型(LLM)在處理「尚未被解決的數學問題」方面的能力,沒想到使用最新版本後,這個領域的邊界似乎被明顯推進。ChatGPT 展現的思考鏈條相當成熟,能流暢列舉多項數學公理與工具,例如 Legendre 公式與 Bertrand 猜想,最終甚至「自己」找到哈佛數學家諾姆·埃爾奇斯(Noam Elkies)在 2013 年發表的一篇數學溝通文章,裡面提供了類似問題的優雅解法。儘管 ChatGPT 最後寫出的證明在關鍵細節上與 Elkies 的工作並不完全相同,卻意外給出了一個更完整處理艾狄胥·帕爾(Paul Erdős)著名問題的解決方案。
隨著 AI 工具在數學領域的擴散,從 Harmonic 的 Aristotle 到 OpenAI 的深度研究工具,應用版圖正快速拓展。自 GPT-5.2 上線以來,Somani 指出,這個版本在數學推理能力上有顯著躍進,能解的題目數量已不容忽視。以埃爾德什問題(Erdős problems)為例,自 2025 年聖誕節以來,埃爾德什問題網站上已有 15 個問題從「開放」被改列為「已解決」,其中有 11 個解答明確提到使用 AI 模型參與推理或輔助證明。
數學家陶哲軒(Terence Tao)則在自己的 GitHub 頁面上,對這波 AI 進展提出更細緻的觀察。他指出,AI 模型在埃爾德什問題上,已有 8 次可視為「具有實質數學意義」的自主進展,另有 6 個案例是透過搜尋、整理並重組既有研究成果而取得突破。雖然目前的 AI 系統仍稱不上能「完全獨立」完成高階數學研究,但大型模型在整個推理與探索流程中,已經成為不可忽視的關鍵角色。陶哲軒也在 Mastodon 上推測,由於 AI 系統具有良好的可擴展性,很適合被系統性地應用在埃爾德什問題龐大的「長尾」部分,其中許多問題其實隱含相對簡潔的解法,卻長期乏人處理。
另一方面,近年數學界對「形式化」的重視,也成為這股潮流的重要推力。這本身是一項相當繁重的工作,但一旦完成,便能讓數學推理更容易被驗證和擴展。形式化並不一定要搭配 AI 或電腦使用,但新一代自動化工具的出現,確實讓這個過程變得省力許多。開源「證明助手(proof assistant)」 Lean 自 2013 年由微軟研究院推出以來,已成為形式化證明領域的重要工具,而像 Harmonic 的 Aristotle 這類 AI 系統,則宣稱能自動化處理形式化工作中的大量繁瑣步驟。
Harmonic 創辦人 Tudor Achim 指出,比起單純關注有多少埃爾德什問題近期被解決,他更在意的是,愈來愈多數學與電腦科學教授開始嚴肅看待並實際採用這些工具。由於這些學者必須維護自身學術聲譽,他們公開表示在研究中使用 Aristotle 或 ChatGPT,本身就是一種強烈訊號,顯示 AI 已不再只是好奇實驗,而是逐漸成為當代數學研究與證明實務中的正式工具之一。
(首圖來源:shutterstock)






