
在打造人工智慧的漫長路上,人類的角色是時候改變了? Google DeepMind 科學家在新文章中預測,有限的人類資料不再是引導機器產生智慧的最佳素材。相反地,人類是時候讓機器自行探索世界、從經驗中學習。如此,AI 也才能創造出值得人類學習的知識。
人類尋求「思考機器」的努力已經走過七十餘載,也許一個新時代正在來臨。人類終將放棄「在機器中重現人類智慧」的夢想,了解到人工智慧無法也不需要複製人類智慧。讓機器從自身經驗中學習,才能突破人類知識限制,解決我們無法解決的重大難題。
這是DeepMind科學家近期在一篇《歡迎來到經驗時代》(Welcome to the Era of Experience)文章中的主要觀點。此為即將出版的著作《Designing an Intelligence》中的一個章節,作者為強化學習(RL)領域的先驅薩頓(Richard Sutton)及重要推廣者希爾弗(David Silver)。
作者將近代的AI發展分為三個時代:「模擬時代」、「人類資料時代」,以及即將到來的「經驗時代」。AlphaGo是模擬時代的產物,GPT-3可視為推進人類資料時代的代表,而DeepMind自家開發的AlphaProof,則被認為是朝向經驗時代轉向的證據之一。
▲ DeepMind科學家預測未來將是「經驗時代」(Source:The Era of Experience)
「經驗時代」有何特徵?又為何可能是必須前進的方向?
高品質人類資料將用盡,模型仍無法掌握基本常識
要理解這樣的典範轉移,可以先從審視現況及其限制開始。
近年,在ChatGPT的突破下,大眾對「人工智慧」有了新一層的體驗與認知。驅動ChatGPT的大語言模型(LLM),主要倚賴大量的人類資料做為訓練素材,加上人類專家的範例及偏好進行微調。這些模型因而能夠生成極近似人類水平的回應,且似乎了解如何迎合使用者的偏好。
然而,僅靠著擴大模型規模達成的能力進展逐漸放緩,高品質的人類資料也逐漸用盡。OpenAI前首席科學家蘇茨克維(Ilya Sutskever)在2024年便指出,以海量資料進行預訓練的做法已來到自然極限,需要新的進路。近期模型發展朝向「推理」能力的轉向,便是例證之一。
事實上,光靠大語言模型無法打造出人工智慧界的階段性聖杯「通用人工智慧」(AGI),已可說是業界共識。即使已搜刮人類在網路上累積的海量數位資料,作為模型的訓練素材,這些聊天機器人依然無法掌握基本常識,也無法分辨自己的輸出是真是假。
前進更先進的人工智慧,需要一場跳躍。對薩頓與希爾弗來說,這代表著以新見解再次擁抱「強化學習」(RL)的根本概念。要從「人類資料時代」挺入「經驗時代」,人工智慧需要從「吸收人類知識」轉向「自己從做中學」。
打造「人工智慧」,人類知識不及算力重要
加拿大籍的電腦科學家薩頓,是強化學習領域的關鍵先驅人物。他為強化學習開發了數個基礎演算法,並因其貢獻共同獲得2024年的圖靈獎(Turing Award)肯定。目前是DeepMind的Alberta Lab負責人。
簡單地說,強化學習的核心概念在於:透過觀察、行動及獲取回饋,模型逐漸習得最大化正面回饋的策略。也就是透過反覆試錯,從較成功與較不成功的經驗中學習,變得愈來愈擅長做出「更對」的決策。
DeepMind已在此領域累積多年經驗。從早期的Atari遊戲到《星海爭霸2》的「AlphaStar」,結合強化學習與深度神經網路,DeepMind打造出諸多稱霸人類遊戲的AI系統。
其中,最知名的莫過於2016年擊敗韓國圍棋棋士李世乭的「AlphaGo」。4月,曾主導「AlphaGo」計畫的希爾弗,在DeepMind播客中解釋,AlphaGo是以人類棋士的知識為基礎出發,但團隊事後發現,協助AlphaGo起步的人類棋譜知識,其實並非必要。
隨後研發的「AlphaZero」,名字中的「Zero」指的就是幾乎「零」人類資料被預先餵入系統。AlphaZero主要是靠著與自己大量對弈來磨練圍棋棋藝,且光靠如此,就從新手成為世界最強圍棋棋士。團隊發現,即使沒有人類棋士的棋譜協助起步,AlphaZero不僅能追上前輩AlphaGo的表現,甚至學習速度更快、表現也更勝一級。
這呼應薩頓在2019年發表的關鍵論文〈苦澀的教訓〉(The Bitter Lesson);這是當代強化學習研究領域最具影響力的貢獻之一。薩頓在論文中指出,持續提升AI能力的關鍵,不在於巧妙地向機器注入人類知識,而是足夠的算力與可有效利用算力的演算法。
人類研究者想將自己擁有的知識教給機器,協助它們形成智慧,這樣的希冀有其合理之處。例如,引導系統以「思維鏈」(CoT)模仿人類拆解、分析問題的過程,符合人腦的思考習慣,也是人類較能理解的運作,提升了系統的可解釋性。
薩頓回顧,這也是為什麼在「深藍」(Deep Blue)於1997年擊敗西洋棋世界冠軍卡斯帕洛夫(Гарри Каспаров)時,一批AI研究者認為深藍只是以「蠻力」計算得勝,而非以「人類下棋的方式」贏得棋局。
▲ 「深藍」(Deep Blue)於1997年擊敗西洋棋世界冠軍卡斯帕洛夫。(Source:James the photographer, CC BY 2.0, via Wikimedia Commons/Copyright 2007, S.M.S.I., Inc. – Owen Williams, The Kasparov Agency., CC BY-SA 3.0, via Wikimedia Commons)
希爾弗表示,「我們真的想要相信,人類至今累積的所有知識是重要的。所以我們將之餵進(AI)系統。」但研究結果顯示,人類知識的效用似乎不及讓AI自己學習,甚至限制了AI的進一步發展。
依賴人類資料的AI模型,只能混合既有知識、複製人類能力,而無法繳出超越人類能力的表現。如AlphaGo在第二場對弈時的第37手,常被認為是「具有創造力的」,提出了不同於人類傳統看待圍棋的一步棋。這在「人類資料時代」中是少見的。
直接把人類已經掌握的知識教給AI系統,只會讓人工智慧更不知道發現這些知識的過程是怎麼發生的。它必須自行探索、學習與創造,才能突破人類知識的極限,發現人類還沒發現的事物。
這個教訓的苦澀之處在於以人類為中心的進路敗下陣來,但未來仍然可能是相當甜蜜的。
倚靠自產經驗,AI模型也能「終生學習」
在新書摘文中,薩頓與希爾弗勾勒了AI代理透過行動與反饋,持續改進自我能力的願景。他們指出,結合經典強化學習概念與人類資料培養的通用性,能打造出優於僅靠精選人類資料訓練出的模型。
這樣的新一代AI模型,不會在預訓練結束後就維持不變。透過調用API等方式,AI可以直接探索及觀察世界。每一次與現實世界的互動,都成為一次新的經驗資料挹注。在源源不絕的經驗流中,AI得以在整個生命歷程中,持續從自己產製的資料中學習、改進,就像人類一樣。
其中一大關鍵在於,AI模型的改善不會只由人類反饋引導。過去,以人類為中心的優化過程,是由人類判斷模型輸出的品質;例如使用者從ChatGPT的兩種回答中選出一個「較喜歡的答案」。這使得人類的判斷力成為模型能力的上限。
當AI模型得以直接從環境中取得反饋信號時,就能做出超越人類知識範圍的判斷。例如,當一個健康照護AI助理不僅能聆聽使用者是否「感覺良好」,也能直接觀察使用者的睡眠品質、心跳速度、體溫變化等資訊時,就能提供更完善的照護服務。
藉此,AI系統可以塑造自己的世界模型,預測行為的結果。如此形成的規劃與推理能力,很可能不是以人類語言為基礎的。 一來,人類語言可能不是最適合機器思考的媒介。二來,擺脫人類語言,也較不易受到人類偏見影響。
作者認為,隨著AI代理興起,從「人類資料」朝向「經驗」的典範轉移已在發生中。從算力到演算法,基本技術也已到位。下一步是逐步拓展現實應用。
AGI邁向最後一哩路,對人類社會是福是禍?
這樣的進路,可由Google DeepMind的產品及策略路線圖中見得;包括風險預測及正在推進的通用AI助理計畫「Project Astra」。部署進入消費產品的多模態處理能力,有助AI取得更多元的現實資料。代理日常任務的經驗,將為獨立執行更複雜任務的能力打下基礎,加速前進自主科學研究的突破。
Google DeepMind執行長哈薩比斯(Demis Hassabis)近日接受《時代》(TIME)專訪,表示DeepMind長期以來的目標「通用人工智慧」(AGI),已邁進最後階段,預計能在5 ~10年間達陣。
這個時間軸比Anthropic、OpenAI等主要競者的預期稍晚。哈薩比斯解釋,這是因為比起人工智慧創造的經濟產值,DeepMind對AGI的定義更偏重於科學研發的能力。自認為科學家的哈薩比斯打造先進人工智慧的主因,是為了發現更多知識,更好地理解世界。他相信,這有助於解決許多人類正面臨的困難挑戰。
「要不是我知道像AI這樣的變革性技術即將到來,我會對現今社會非常憂慮。」他表示。
然而,在前進AGI的路上,也已經萌生諸多問題。大規模的勞動自動化,被認為是人工智慧公司回收投資成本的關鍵途徑。這對人力市場的衝擊尚不明確。奠基於自身經驗而非人類資料的AI系統,能否「對齊」人類價值觀,也是許多研究者擔憂的風險。
哈薩比斯承認,經濟學家能比他做出更好的預測。但倘若AGI能協助人類掌握核融合技術、開發出更高效能的電池,人類將能活在一個資源更充裕的社會中。
「我所想像的是一個不再是零和博弈的世界。」哈薩比斯表示,「但可能會需要建立一個全新的政治哲學。」
(本文由 遠見雜誌 授權轉載,首圖來源:shutterstock)