祕密研發甚至威脅人類，只代號就引發全世界恐慌？OpenAI「Q*」到底是啥

先把 OpenAI 管理層大亂鬥放到一邊，聊聊最新傳言：Q*。

OpenAI 11 月 22 日寄了員工信，證實有 Q* 計畫，描述為「超越人類的自主系統」，著實讓人害怕。雖然OpenAI還沒放出任何Q*細節，但以我們微薄知識來看看這可能是什麼。

第一步是Q*怎麼讀，正式名稱念作Q-Star。你沒看錯，即便深度學習，區塊間透過乘積求解，但Q*的「*」並不是指乘法，而是「星號」。「Q」字母在強化學習表示動作的期望獎勵。

人工智慧領域凡跟大寫Q沾上邊，本質都是Q學習。Q學習以現在評判標準可算是強化學習的一種，指訓練時記錄歷史獎勵值，告訴智慧體下步怎麼選才能與歷史最高獎勵值相同。但注意，歷史最大獎勵值並不代表模型最大獎勵值，有可能是也很大可能不是，甚至可能完全無關。換句話說，Q學習和智慧體就像球隊分析師和教練的關係，教練指導球隊，分析師輔佐教練。

強化學習時智慧體輸出決策是回饋到環境才能得到獎勵，Q學習因只記錄獎勵值，因此不需要建模環境，等於「結果好，一切就好」。

不過看起來Q學習好像不如現在的AI，尤其大模型常用深度學習模型，動不動幾十億、幾百億參數，Q學習不僅對模型沒什麼幫助，反倒增加複雜性，降低穩健度。別急，其實這是因上述Q學習背後想法只是誕生於1989年的基本概念。

DeepMind 2013年改進Q學習，推出演算法叫深度Q學習，特點就是經歷重播，從過去多結果採樣，再使用Q學習，達到提高模型穩定性，降低模型因某次結果導致訓練方向太發散。但實話實說，這概念沒有成主流當然有原因，實際意義看，深度Q學習最大作用就是發展成DQN。DQN指深度Q網路，從深度Q學習誕生。DQN想法和Q學習一模一樣，但求得Q學習最大獎勵值時是用神經網路達成，這就fashion起來了。

DQN同時間只會產生一個節點，DQN會產生優先權佇列，再把剩下節點和動作元祖存到優先權佇列裡。顯而易見，一個節點肯定不夠用，如果全程就一個節點那最後求解答案一定錯得離譜。當節點和動作元祖從隊列移出，就會根據動作應用到已產生的節點關聯性產生新節點，以此類推。

稍微懂點人工智慧發展史的人會越看越眼熟，這不就是高配版佛洛伊德求邊長？

現代電腦處理器核心原理就是佛洛伊德演算法，與歷史最優值比對，求得兩點間最短路徑。記憶體作用就是將計算以優先權儲存，每當處理器完成一次計算，記憶體再把下一條計算丟給處理器。

DQN沒什麼本質差別，這基本就是Q的意思，那*又指什麼？許多業界人士分析，*很可能指A*演算法。這是一種啟發式演算法，先不講啟發式演算法是什麼，來講個笑話：

A問B：「快速算出1928749189571*1982379176乘積」，B立刻回答：「32」，A很納悶，這麼大兩數相乘，不可能答案是兩位數，B反問A：「你就說快不快？」

看起來離譜，但啟發式演算法同道理。

本質是估算，效率和正解間只能選擇一個──不是講究效率但有時出錯，要不就講究正確性但耗時很長。A*演算法先透過啟發式演算法估算大概值，當然這值很可能極度偏離正解。估算完成後開始循環遍歷，如果怎樣都沒辦法解開就重新估值，直到開始出現解。如此反覆，最終得出最佳解。

雖然得到最佳解，A*就是上文提到的第二種，答案對，耗時較長。放在實驗室環境還好，這種演算法要是登上個人裝置，有可能導致記憶體溢出，產生系統問題，例經典藍色畫面。

因此這限制使過往A*演算法往往用於較不複雜的模型，最典型就是網路遊戲角色找路。大型遊戲角色找路開始剎那要是卡頓，就是因A*演算法。

綜合看，人工智慧圈共識是OpenAI提到的Q*演算法，大概是Q學習和A兩者截長補短，即節省算力、節省記憶體並得到最佳解──因總不可能多花費算力又浪費記憶體，最後還得不到最佳解吧！

且就像OpenAI把基礎模型這件事最終做成，同樣早已存在，甚至一度遭冷落，直到OpenAI用創新方法重新挖掘潛力。現在我們有理由相信Q和A這早就存在的算法思路，OpenAI能故技重施再創造奇蹟──當然這奇蹟會危害人類的可能性也因最近OpenAI鬧劇讓更多人憂心忡忡。

回到演算法，Q*最有可能的樣子是利用Q學習快速找到接近最佳解的估值，再利用A*演算法小範圍求解，省去大量無意義計算，達到快速求得最佳解。但OpenAI會怎麼做，還得等論文公開（如果等得到）。

Q*出現說明一個問題，人工智慧領頭公司意識到人工智慧發展求解的過程比求解更有意義，因現在只追求答案的正確性不再能滿足人們對人工智慧的需求，如OpenCompass即便平均分數差10或20分，如果從理解準確率看，最好和最差模型差距沒有很大。

人們猜測和恐慌關於Q*的說法是，Q*可解決非常高級的數學問題。薩里以人為本人工智慧研究所所長安德魯·羅戈斯基表示：「我們知道現有人工智慧已證明能做本科水準的數學運算，但無法處理更高級數學問題。但Q*極有可能解決高難度數學問題。」說不定等到Q*出現，還能考考它哥德巴赫猜想（Goldbach′s conjecture）。數學是人類智慧的最偉大結晶之一，因此Q*只是還只是個代號就引發全世界恐慌。

Q*背後也與OpenAI使命連結──通用人工智慧（AGI），甚至超級智慧。OpenAI將AGI定義為最具經濟價值的任務超越人類的自主系統，Q*就是OpenAI邁向AGI的一步。

OpenAI對Q*和信件外洩沒有發表任何評論，但筆者喜憂參半。對Q*擁有強大能力很開心，人工智慧領域發展會更進一步；同時擔心Q*噱頭大於實力，真到發表那天測試結果就那麼回事，狠狠打臉筆者。

（本文由品玩授權轉載；首圖來源：shutterstock）