用 ChatGPT 控制 NPC,行動逼真到像正常人!史丹佛、Google 新研究炸場,賦予大模型準確記憶力

作者 | 發布日期 2023 年 04 月 25 日 8:00 | 分類 AI 人工智慧 , Google , 遊戲軟體 line share follow us in feedly line share
用 ChatGPT 控制 NPC,行動逼真到像正常人!史丹佛、Google 新研究炸場,賦予大模型準確記憶力


放任 25 個 AI 共同生活,竟然開始模擬人類行動!

蕭簫發自凹非寺,量子位| 公眾號QbitAI

AI不僅能像人起床、刷牙、吃飯、睡覺,還會被迫「出門工作」,甚至休閒時一起慶祝節日。

這都是史丹佛和Google的新研究他們做了一次新實驗,創造25個AI NPC,每個NPC都有不同身分和行為決策,並讓它們在沙盒共同生活,靠ChatGPT模型下行為決策。結果這些AI NPC不僅像人生活,如作家就去寫作、老闆就去開店,且彼此還會互動,甚至對話:

研究一公開就爆紅,賓州大學華頓商學院教授Ethan Mollick表示:

這些行動比起「角色扮演」,更像正常人會做的舉動。

OpenAI科學家Andrej Karpathy更直呼「這讓開放世界遊戲相形見絀」:

這研究究竟構建了什麼樣的「AI社會」?

當AI玩模擬市民

從Demo看來,25個AI身分、性格和年齡都不同:

他們會在共同社群生活,構造非常詳細,有住宅區、大學、公園、咖啡廳等:

每個AI都有基礎日程,如起床、梳洗、吃飯、睡覺等,據各自身分又會做不同行動,共同維持社群運轉。Demo的emoji簡單代表AI進行中操作,如收發信件和吃飯:

AI也會有互動:

交談時也不是用AI語言,而是人類語言:

不僅如此,有互動的AI甚至能聽人類的要求,採取對應行動。如論文作者提到,他們以人類身分告訴某AI NPC,希望它舉辦「情人節派對」。這AI NPC不僅熱情答應作者的請求,自發開始組織,包括時間地點和到場人物等:

看到這有網友表示「太瘋狂了」──對玩家來說,比起遵循步驟,以後遊戲可能真的得說服NPC或思考後採取行動,才能完成任務。

還有腦洞大開的網友想到更邪惡的玩法:

想像你殺死一個NPC,然後坐車回到城市,看其他NPC為它舉辦葬禮>"<。

這些AI究竟如何自發行動,構建自運轉的AI互動社會?

用大模型控制行動決策

史丹佛和Google分兩步讓AI採取行動、與其他AI互動。

第一步是構建各種AI「人設」,並確定它們做出符合設定的行動。以AI角色John Lin為例,Demo可找到設定列表。他的設定非常詳細,包括基礎資訊(姓名、年齡、位置、時間),注意力設定(視野範圍等),個人資訊(性格、家庭背景、工作等)。

以此參考,John Lin AI就能形成每天固定的生活習慣,包括早起梳洗,然後上班,下班回家睡覺。

但活動時必定會與其他AI溝通或遇到新同事,於是……

第二步就是要讓AI人設對外界環境和其他人有反應,產生互動。研究構建賦予AI記憶力、檢索記憶、感測、回饋和互動等能力的架構。

從架構圖看,AI首先感測周遭環境,並將一定視野(注意力)範圍發生的事件記錄下來,加進自己的記憶流(memory stream)。

之後無論AI計劃要做的事(plan)還是反應(reflect)外界發生的事,都會受記憶流影響,原理是透過從記憶檢索對應事件,並靠大模型ChatGPT下決策。當然,無論計劃還是反應,對應事件也會加入記憶流,成為新記憶。最後決策將轉為方案,使AI思考並行動。

研究提到,之所以採用大模型+記憶架構,是因大模型雖具備非常優秀的行動邏輯,但無論GPT-4還是其他大模型,長期規劃和保持記憶連貫仍是挑戰。故需要一套記憶系統為大模型「參考標的」,讓它決策時有清晰事件列表可回溯。

不過這研究也提出AI安全性問題。包括如何防止AI對社會產生影響,或遭有心人產生Deepfake和「客製化」AI詐騙等。

以後和你聊天的AI美眉不僅記得你說過的每件事、生日喜好,甚至還能參考產生更「貼心」的回答,讓「她」看起來更像人……

One More Thing

中國超參數科技公司也做出類似的AI NPC系統GAEA。和史丹佛Google研究一樣,GAEA同樣有記憶系統,並靠大語言模型幫忙NPC決策。

不過兩者使AI行動的獎勵機制有些差異,相較研究靠大模型完成行動決策:

GAEA的AI會另外依更具體數值,影響NPC行動決策(飢餓值、心情值等):

對現在的AI NPC技術,讀者還想到什麼腦洞大開的玩法?

(作者:蕭簫;本文由 量子位 QbitAI 授權轉載;首圖來源:shutterstock)

延伸閱讀: