國際數學奧林匹亞競賽(International Mathematical Olympiad,IMO)是歷史最悠久、規模最盛大的中學生數學競賽,自 1959 年以來每年舉辦一次,今年的 IMO 已是第 65 屆,更有來自 AI 霸權 Google DeepMind 的挑戰。
Google DeepMind 推出的 AlphaProof,是一個以強化學習為基礎的新型形式數學推理系統,透過產生並驗證數百萬個證明進行自我訓練,逐步解決更困難的問題;以及 AlphaGeometry 2,是幾何解題系統的升級版本,由 Gemini 模型所支援。這兩套 AI 系統共同解決今年 IMO 競賽 6 道題目中的 4 題,達到銀牌得主的水準,並展現數學推理能力的巨大進步。
這次由 IMO 金牌得主、菲爾茲獎(Fields Medal)得主的著名數學家 Timothy Gowers 教授,以及兩屆 IMO 金牌得主、IMO 2024 試題委員會主席 Joseph Myers 博士,根據 IMO 評分規則對 Google DeepMind 的系統進行評分。
Google DeepMind 指出,今年 IMO 競賽題目被翻譯成正式的數學語言,讓這兩套 AI 系統能夠理解。在正式比賽中,學生分兩節提交答案,每節 4.5 小時。Google DeepMind 的系統在幾分鐘內先解決一個問題,並花 3 天時間解決其他問題。
AlphaProof 透過確定答案並證明其正確性,成功解決兩個代數問題和一個數論問題,其中包括今年競賽最困難的問題,僅 5 名參賽學生有解決,加上 AlphaGeometry 2 證明的幾何問題,共解出四個問題,還有兩個組合數學問題未解決。
今年 IMO 競賽六個問題中的每解一題可獲 7 分,總分最高 42 分,金牌門檻則為 29 分。Google DeepMind 的系統獲得 28 分,距離金牌只有一步之遙。
「主要條件是,該程式比人類選手需要更長的時間,其中一些問題需要超過 60 個小時,當然處理速度比人類大腦快得多。」Timothy Gowers 賽後透過 X(前身 Twitter)談道,「如果人類選手在每個問題上允許思考這麼長的時間,他們無疑會獲得更高分數。」儘管存在限制,他認為這種 AI 系統可成為有價值的研究工具。
If the human competitors had been allowed that sort of time per problem they would undoubtedly have scored higher.
Nevertheless, (i) this is well beyond what automatic theorem provers could do before, and (ii) these times are likely to come down as efficiency gains are made.
— Timothy Gowers @wtgowers (@wtgowers) July 25, 2024
▲ 數學家 Timothy Gowers 分享 Google DeepMind 挑戰 IMO 競賽的看法。
(首圖來源:Google DeepMind)