祕密研發甚至威脅人類,只代號就引發全世界恐慌?OpenAI「Q*」到底是啥

作者 | 發布日期 2023 年 11 月 30 日 7:50 | 分類 AI 人工智慧 , 軟體、系統 line share follow us in feedly line share
祕密研發甚至威脅人類,只代號就引發全世界恐慌?OpenAI「Q*」到底是啥


先把 OpenAI 管理層大亂鬥放到一邊,聊聊最新傳言:Q*。

OpenAI 11 月 22 日寄了員工信,證實有 Q* 計畫,描述為「超越人類的自主系統」,著實讓人害怕。雖然OpenAI還沒放出任何Q*細節,但以我們微薄知識來看看這可能是什麼。

第一步是Q*怎麼讀,正式名稱念作Q-Star。你沒看錯,即便深度學習,區塊間透過乘積求解,但Q*的「*」並不是指乘法,而是「星號」。「Q」字母在強化學習表示動作的期望獎勵。

人工智慧領域凡跟大寫Q沾上邊,本質都是Q學習。Q學習以現在評判標準可算是強化學習的一種,指訓練時記錄歷史獎勵值,告訴智慧體下步怎麼選才能與歷史最高獎勵值相同。但注意,歷史最大獎勵值並不代表模型最大獎勵值,有可能是也很大可能不是,甚至可能完全無關。換句話說,Q學習和智慧體就像球隊分析師和教練的關係,教練指導球隊,分析師輔佐教練。

強化學習時智慧體輸出決策是回饋到環境才能得到獎勵,Q學習因只記錄獎勵值,因此不需要建模環境,等於「結果好,一切就好」。

不過看起來Q學習好像不如現在的AI,尤其大模型常用深度學習模型,動不動幾十億、幾百億參數,Q學習不僅對模型沒什麼幫助,反倒增加複雜性,降低穩健度。別急,其實這是因上述Q學習背後想法只是誕生於1989年的基本概念。

DeepMind 2013年改進Q學習,推出演算法叫深度Q學習,特點就是經歷重播,從過去多結果採樣,再使用Q學習,達到提高模型穩定性,降低模型因某次結果導致訓練方向太發散。但實話實說,這概念沒有成主流當然有原因,實際意義看,深度Q學習最大作用就是發展成DQN。DQN指深度Q網路,從深度Q學習誕生。DQN想法和Q學習一模一樣,但求得Q學習最大獎勵值時是用神經網路達成,這就fashion起來了。

DQN同時間只會產生一個節點,DQN會產生優先權佇列,再把剩下節點和動作元祖存到優先權佇列裡。顯而易見,一個節點肯定不夠用,如果全程就一個節點那最後求解答案一定錯得離譜。當節點和動作元祖從隊列移出,就會根據動作應用到已產生的節點關聯性產生新節點,以此類推。

稍微懂點人工智慧發展史的人會越看越眼熟,這不就是高配版佛洛伊德求邊長?

現代電腦處理器核心原理就是佛洛伊德演算法,與歷史最優值比對,求得兩點間最短路徑。記憶體作用就是將計算以優先權儲存,每當處理器完成一次計算,記憶體再把下一條計算丟給處理器。

DQN沒什麼本質差別,這基本就是Q的意思,那*又指什麼?許多業界人士分析,*很可能指A*演算法。這是一種啟發式演算法,先不講啟發式演算法是什麼,來講個笑話:

A問B:「快速算出1928749189571*1982379176乘積」,B立刻回答:「32」,A很納悶,這麼大兩數相乘,不可能答案是兩位數,B反問A:「你就說快不快?」

看起來離譜,但啟發式演算法同道理。

本質是估算,效率和正解間只能選擇一個──不是講究效率但有時出錯,要不就講究正確性但耗時很長。A*演算法先透過啟發式演算法估算大概值,當然這值很可能極度偏離正解。估算完成後開始循環遍歷,如果怎樣都沒辦法解開就重新估值,直到開始出現解。如此反覆,最終得出最佳解。

雖然得到最佳解,A*就是上文提到的第二種,答案對,耗時較長。放在實驗室環境還好,這種演算法要是登上個人裝置,有可能導致記憶體溢出,產生系統問題,例經典藍色畫面。

因此這限制使過往A*演算法往往用於較不複雜的模型,最典型就是網路遊戲角色找路。大型遊戲角色找路開始剎那要是卡頓,就是因A*演算法。

綜合看,人工智慧圈共識是OpenAI提到的Q*演算法,大概是Q學習和A兩者截長補短,即節省算力、節省記憶體並得到最佳解──因總不可能多花費算力又浪費記憶體,最後還得不到最佳解吧!

且就像OpenAI把基礎模型這件事最終做成,同樣早已存在,甚至一度遭冷落,直到OpenAI用創新方法重新挖掘潛力。現在我們有理由相信Q和A這早就存在的算法思路,OpenAI能故技重施再創造奇蹟──當然這奇蹟會危害人類的可能性也因最近OpenAI鬧劇讓更多人憂心忡忡。

回到演算法,Q*最有可能的樣子是利用Q學習快速找到接近最佳解的估值,再利用A*演算法小範圍求解,省去大量無意義計算,達到快速求得最佳解。但OpenAI會怎麼做,還得等論文公開(如果等得到)。

Q*出現說明一個問題,人工智慧領頭公司意識到人工智慧發展求解的過程比求解更有意義,因現在只追求答案的正確性不再能滿足人們對人工智慧的需求,如OpenCompass即便平均分數差10或20分,如果從理解準確率看,最好和最差模型差距沒有很大。

人們猜測和恐慌關於Q*的說法是,Q*可解決非常高級的數學問題。薩里以人為本人工智慧研究所所長安德魯·羅戈斯基表示:「我們知道現有人工智慧已證明能做本科水準的數學運算,但無法處理更高級數學問題。但Q*極有可能解決高難度數學問題。」說不定等到Q*出現,還能考考它哥德巴赫猜想(Goldbach′s conjecture)。數學是人類智慧的最偉大結晶之一,因此Q*只是還只是個代號就引發全世界恐慌。

Q*背後也與OpenAI使命連結──通用人工智慧(AGI),甚至超級智慧。OpenAI將AGI定義為最具經濟價值的任務超越人類的自主系統,Q*就是OpenAI邁向AGI的一步。

OpenAI對Q*和信件外洩沒有發表任何評論,但筆者喜憂參半。對Q*擁有強大能力很開心,人工智慧領域發展會更進一步;同時擔心Q*噱頭大於實力,真到發表那天測試結果就那麼回事,狠狠打臉筆者。

(本文由 品玩 授權轉載;首圖來源:shutterstock)

延伸閱讀: