放任 25 個 AI 共同生活,竟然開始模擬人類行動!
蕭簫發自凹非寺,量子位| 公眾號QbitAI
AI不僅能像人起床、刷牙、吃飯、睡覺,還會被迫「出門工作」,甚至休閒時一起慶祝節日。
這都是史丹佛和Google的新研究:他們做了一次新實驗,創造25個AI NPC,每個NPC都有不同身分和行為決策,並讓它們在沙盒共同生活,靠ChatGPT模型下行為決策。結果這些AI NPC不僅像人生活,如作家就去寫作、老闆就去開店,且彼此還會互動,甚至對話:
研究一公開就爆紅,賓州大學華頓商學院教授Ethan Mollick表示:
這些行動比起「角色扮演」,更像正常人會做的舉動。
This is quite the paper!
It gave 25 AI agents motivations & memory, and put them in a simulated town.
Not only did they engage in complex behavior (including throwing a Valentine’s Day party) but the actions were rated more human than humans roleplaying. https://t.co/G7oJW1S3na pic.twitter.com/d7Gp4sXp4V
— Ethan Mollick (@emollick) April 10, 2023
OpenAI科學家Andrej Karpathy更直呼「這讓開放世界遊戲相形見絀」:
Love it 👏 – much fertile soil for indie games populated with AutoGPTs, puts “Open World" to shame. Simulates a society with agents, emergent social dynamics.
Paper: https://t.co/I07IJwweHE
Demo: https://t.co/pYNF4BBveG
Authors: @joon_s_pk @msbernst @percyliang @merrierm et al. pic.twitter.com/CP4tH9iAVV— Andrej Karpathy (@karpathy) April 10, 2023
這研究究竟構建了什麼樣的「AI社會」?
當AI玩模擬市民
從Demo看來,25個AI身分、性格和年齡都不同:
他們會在共同社群生活,構造非常詳細,有住宅區、大學、公園、咖啡廳等:
每個AI都有基礎日程,如起床、梳洗、吃飯、睡覺等,據各自身分又會做不同行動,共同維持社群運轉。Demo的emoji簡單代表AI進行中操作,如收發信件和吃飯:
AI也會有互動:
交談時也不是用AI語言,而是人類語言:
不僅如此,有互動的AI甚至能聽人類的要求,採取對應行動。如論文作者提到,他們以人類身分告訴某AI NPC,希望它舉辦「情人節派對」。這AI NPC不僅熱情答應作者的請求,自發開始組織,包括時間地點和到場人物等:
看到這有網友表示「太瘋狂了」──對玩家來說,比起遵循步驟,以後遊戲可能真的得說服NPC或思考後採取行動,才能完成任務。
It is really wild what this will be able to do for bigger open world games. Players will be able to accomplish goals by real persuasion and organization instead of just following steps. Really interesting. pic.twitter.com/EFRSkgJA7v
— Jeremy Chrysler (@jeremychrysler) April 10, 2023
還有腦洞大開的網友想到更邪惡的玩法:
想像你殺死一個NPC,然後坐車回到城市,看其他NPC為它舉辦葬禮>"<。
Imagine killing an NPC and coming back to the city and seeing a funeral for them 😩
— Dennis Hansen (@dennizor) April 10, 2023
這些AI究竟如何自發行動,構建自運轉的AI互動社會?
用大模型控制行動決策
史丹佛和Google分兩步讓AI採取行動、與其他AI互動。
第一步是構建各種AI「人設」,並確定它們做出符合設定的行動。以AI角色John Lin為例,Demo可找到設定列表。他的設定非常詳細,包括基礎資訊(姓名、年齡、位置、時間),注意力設定(視野範圍等),個人資訊(性格、家庭背景、工作等)。
以此參考,John Lin AI就能形成每天固定的生活習慣,包括早起梳洗,然後上班,下班回家睡覺。
但活動時必定會與其他AI溝通或遇到新同事,於是……
第二步就是要讓AI人設對外界環境和其他人有反應,產生互動。研究構建賦予AI記憶力、檢索記憶、感測、回饋和互動等能力的架構。
從架構圖看,AI首先感測周遭環境,並將一定視野(注意力)範圍發生的事件記錄下來,加進自己的記憶流(memory stream)。
之後無論AI計劃要做的事(plan)還是反應(reflect)外界發生的事,都會受記憶流影響,原理是透過從記憶檢索對應事件,並靠大模型ChatGPT下決策。當然,無論計劃還是反應,對應事件也會加入記憶流,成為新記憶。最後決策將轉為方案,使AI思考並行動。
研究提到,之所以採用大模型+記憶架構,是因大模型雖具備非常優秀的行動邏輯,但無論GPT-4還是其他大模型,長期規劃和保持記憶連貫仍是挑戰。故需要一套記憶系統為大模型「參考標的」,讓它決策時有清晰事件列表可回溯。
不過這研究也提出AI安全性問題。包括如何防止AI對社會產生影響,或遭有心人產生Deepfake和「客製化」AI詐騙等。
以後和你聊天的AI美眉不僅記得你說過的每件事、生日喜好,甚至還能參考產生更「貼心」的回答,讓「她」看起來更像人……
One More Thing
中國超參數科技公司也做出類似的AI NPC系統GAEA。和史丹佛Google研究一樣,GAEA同樣有記憶系統,並靠大語言模型幫忙NPC決策。
不過兩者使AI行動的獎勵機制有些差異,相較研究靠大模型完成行動決策:
GAEA的AI會另外依更具體數值,影響NPC行動決策(飢餓值、心情值等):
對現在的AI NPC技術,讀者還想到什麼腦洞大開的玩法?
(作者:蕭簫;本文由 量子位 QbitAI 授權轉載;首圖來源:shutterstock)