圖靈獎也納入 AI 版圖:2024 年得主為強化學習先驅 Andrew Barto 與 Richard Sutton

作者 | 發布日期 2025 年 03 月 06 日 15:15 | 分類 AI 人工智慧 line share Linkedin share follow us in feedly line share
圖靈獎也納入 AI 版圖:2024 年得主為強化學習先驅 Andrew Barto 與 Richard Sutton

計算機學界的最高榮譽「圖靈獎」(A.M. Turing Award)今年頒給強化學習(Reinforcement Learning)奠基者 Andrew Barto 和 Richard Sutton(首圖右),表彰他們開創性的研究,為人工智慧鋪路。兩位研究者將共享 Google 資助的 100 萬美元獎金。

從神經科學啟發到AI基石

1977年Andrew Barto在麻薩諸塞大學阿默斯特分校(University of Massachusetts, Amherst)開始探索新理論,認為神經元行為類似享樂主義者,人腦由數十億個神經細胞驅動,每個細胞都試圖最大化快樂並最小化痛苦。一年後年輕研究者Richard Sutton加入團隊,共同研究如何將這簡單概念用於人工智慧。

「這想法很明顯,特別是談論人類和動物行為時。」Sutton表示,他現在是加拿大阿爾伯塔大學(University of Alberta, UofA)教授、Keen Technologies研究科學家,以及加拿大國家AI實驗室Amii研究員。「當我們重新提出這理念,目標是讓機器也能這樣學習。」

強化學習的核心理念

強化學習是讓電腦系統嘗試從錯誤中學習。與傳統馬爾可夫決策過程理論(假設系統完全了解環境)不同,強化學習允許系統在未知環境經獎勵訊號學習。Barto和Sutton開發的關鍵算法包括「時序差分學習」(temporal difference learning)和「策略梯度法」(policy-gradient methods)。

1998年出版的教科書《Reinforcement Learning: An Introduction》至今仍是此領域的參考標準,引用超過75,000次。華盛頓大學計算機科學榮譽教授Oren Etzioni評價:「他們是無可爭議的強化學習先驅,提出關鍵理念,也寫下這學科的經典著作。」

從學術理論到科技突破

強化學習長期停在學術領域,直到2016年Google AlphaGo擊敗職業圍棋選手李世乭,震驚全球。AlphaGo自我對弈數百萬次,不斷從每次棋局學習。系統由David Silver領導團隊開發,Silver正是於阿爾伯塔大學師從Sutton學習強化學習。

近年強化學習於更廣泛領域顯示巨大潛力:

  • 大型語言模型 :OpenAI ChatGPT用「基於人類回饋的強化學習」(RLHF)調整回應。
  • IC設計:最佳化複雜電路設計布局。
  • 網路管理:改進網路擁擠。
  • 供應鏈最佳化:全球物流和庫存管理。
  • 機器人:幫助機器人學習複雜運動,如玩魔術方塊。

最近OpenAI和中國新創DeepSeek還開發新強化學習,讓聊天機器人和自己學習,就像AlphaGo。解決大量數學問題,聊天機器人學到哪些方法會算出正確答案,哪些不能,產生有「推理能力」的系統,如OpenAI o1或DeepSeek-R1。

從神經科學到人工智慧,再回到神經科學

有趣的是,最初受神經科學啟發的科技現在又回饋給神經科學研究。ACM表示,Barto等研究顯示,AI開發特定強化學習算法,為人類大腦多巴胺系統許多發現提供最佳解釋。

「Barto和Sutton研究展示了將多學科法用於領域長期挑戰的巨大潛力。」ACM主席Yannis Ioannidis解釋。「從認知科學和心理學到神經科學研究,啟發強化學習發展,為AI領域的最重要進展奠定基礎,也讓我們更深入了解大腦如何運作。」

兩位獲獎者都表示,強化學習將在真實世界發揮更大作用。「強化學習控制機器人在真實世界動作,是非常自然的事。」Barto說。他們獲獎代表計算機科學如何從基礎研究發展成推動現代技術進步的核心力量。

(首圖來源:2024 Turing Award

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》