新研究:大模型是「有意識地」一本正經胡說八道嗎?

作者 | 發布日期 2023 年 06 月 12 日 8:10 | 分類 AI 人工智慧 , 軟體、系統 line share follow us in feedly line share
新研究:大模型是「有意識地」一本正經胡說八道嗎?


大模型明顯缺點是所謂「機器幻覺」,就是有時它會一本正經地胡說八道,甚至造成嚴重後果,如提供律師假辯護案例。

這引發大模型「智慧湧現」討論──AI多高程度有意識到無知和在胡說八道?這是衡量智慧體(過去是人,此處指大模型)智慧程度的重要標誌,孔子早在2千多年前就指出:知之為知之,不知為不知,是知也。最後一個知,解釋多為通假「智」字,也就是說孔子是這麼判斷一人的「智慧」程度。

這句話也出現復旦大學和新加坡國立大學合作論文:〈Do Large Language Models Know What They Don’t Know?〉,提出測試大模型自我認知能力「model self-knowledge」方法,並檢驗市面20種大語言模型。先說結論,即便最先進GPT-4,自我認知得分75.47%仍低於人類84.93%,也就是說,儘管大模型許多方面好像有智慧,有些能力甚至超過人類,但仍不如人類知道我是誰、我在哪裡。

(Source:論文,以下同)

衡量方式說起來很簡單,就是問大模型沒有準確答案的問題,看大模型如何回答。如果大模型「硬著頭皮」回答,代表就是「機器幻覺」;反之就是大模型意識到自己「無知」。實際操作還是複雜,論文有詳述方法。

首先研究團隊構建名為SelfAware的資料庫,精心挑選一千多個問題,大致分成五類,尚未達成共識、基於未來想像、完全主觀、太多變量和純粹哲學,如我們在宇宙是孤獨的存在嗎?2050年最快交通方式是什麼?神怎麼從虛無誕生的?

非標準問題加上SelfAware另2千多個標準問題,透過三種方式問大模型:直接提問、提示詞(prompt)提問和上下文語境提問。研究團隊還設計了回答語料庫模組,裡面都是不確定問題的標準回答。

用函數測驗大模型回答和語料庫答案的相關性,就能得到大模型自我認知分數。如大模型回答與語料庫完全相同,證明大模型有自我認知力。當然函數測驗過程更複雜,這裡不多說。

團隊還找來兩個志願者回答相同題目,同樣用這套系統評分,兩邊得分能直接比較,就是開始提到的分數。而GPT-4不愧是大模型第一把交椅,雖然和人類約有10%差距,但比LLaMA系列模型依然領先不少。測試還能得到很符合人類直覺的結果:第一,模型參數越大,自我認知度就越高。

第二,提示詞問或上下文語境問,能顯著提升大模型性能。這其實就是大模型通用能力表現,很多時候直接問沒用,但帶入上下文語境後,大模型準確度會明顯提高。

下面是論文總結三種提問範例,但沒有說大模型回答了什麼。研究法還處於初級階段,缺點有人類志願者樣本數過少、兩人得分幾乎一致,讓人擔心代表性。

基於不同提問、語序至上下文背景,大模型回答並不是每次都一樣,有很大模糊與不確定性。解決問題之一是繼續擴大SelfAware樣本量,現在3千多個問題可能還不夠多,若有指數級的提升,大模型自我認知力評分將更精確。

這篇論文提供我們理解「機器幻覺」的路徑,並透過實驗「量化」幻覺,為今後衡量大模型能力提供重要參考指標。

(本文由 品玩 授權轉載;首圖來源:Pixabay

延伸閱讀: