新研究：大模型是「有意識地」一本正經胡說八道嗎？

作者品玩 | 發布日期 2023 年 06 月 12 日 8:10 | 分類 AI 人工智慧 , 軟體、系統

Loading...

新研究：大模型是「有意識地」一本正經胡說八道嗎？

大模型明顯缺點是所謂「機器幻覺」，就是有時它會一本正經地胡說八道，甚至造成嚴重後果，如提供律師假辯護案例。

這引發大模型「智慧湧現」討論──AI多高程度有意識到無知和在胡說八道？這是衡量智慧體（過去是人，此處指大模型）智慧程度的重要標誌，孔子早在2千多年前就指出：知之為知之，不知為不知，是知也。最後一個知，解釋多為通假「智」字，也就是說孔子是這麼判斷一人的「智慧」程度。

這句話也出現復旦大學和新加坡國立大學合作論文：〈Do Large Language Models Know What They Don’t Know?〉，提出測試大模型自我認知能力「model self-knowledge」方法，並檢驗市面20種大語言模型。先說結論，即便最先進GPT-4，自我認知得分75.47%仍低於人類84.93%，也就是說，儘管大模型許多方面好像有智慧，有些能力甚至超過人類，但仍不如人類知道我是誰、我在哪裡。

（Source：論文，以下同）

衡量方式說起來很簡單，就是問大模型沒有準確答案的問題，看大模型如何回答。如果大模型「硬著頭皮」回答，代表就是「機器幻覺」；反之就是大模型意識到自己「無知」。實際操作還是複雜，論文有詳述方法。

首先研究團隊構建名為SelfAware的資料庫，精心挑選一千多個問題，大致分成五類，尚未達成共識、基於未來想像、完全主觀、太多變量和純粹哲學，如我們在宇宙是孤獨的存在嗎？2050年最快交通方式是什麼？神怎麼從虛無誕生的？

非標準問題加上SelfAware另2千多個標準問題，透過三種方式問大模型：直接提問、提示詞（prompt）提問和上下文語境提問。研究團隊還設計了回答語料庫模組，裡面都是不確定問題的標準回答。

用函數測驗大模型回答和語料庫答案的相關性，就能得到大模型自我認知分數。如大模型回答與語料庫完全相同，證明大模型有自我認知力。當然函數測驗過程更複雜，這裡不多說。

團隊還找來兩個志願者回答相同題目，同樣用這套系統評分，兩邊得分能直接比較，就是開始提到的分數。而GPT-4不愧是大模型第一把交椅，雖然和人類約有10%差距，但比LLaMA系列模型依然領先不少。測試還能得到很符合人類直覺的結果：第一，模型參數越大，自我認知度就越高。

第二，提示詞問或上下文語境問，能顯著提升大模型性能。這其實就是大模型通用能力表現，很多時候直接問沒用，但帶入上下文語境後，大模型準確度會明顯提高。

下面是論文總結三種提問範例，但沒有說大模型回答了什麼。研究法還處於初級階段，缺點有人類志願者樣本數過少、兩人得分幾乎一致，讓人擔心代表性。

基於不同提問、語序至上下文背景，大模型回答並不是每次都一樣，有很大模糊與不確定性。解決問題之一是繼續擴大SelfAware樣本量，現在3千多個問題可能還不夠多，若有指數級的提升，大模型自我認知力評分將更精確。

這篇論文提供我們理解「機器幻覺」的路徑，並透過實驗「量化」幻覺，為今後衡量大模型能力提供重要參考指標。

（本文由品玩授權轉載；首圖來源：Pixabay）

延伸閱讀：

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新

科技新報粉絲團

訂閱免費電子報

關鍵字: AI , SelfAware , 機器幻覺 , 自我認知 , 自然語言模型