「GPT-4 變笨」不只 OpenAI 苦惱,所有大模型與人類相處越久就越蠢

作者 | 發布日期 2024 年 01 月 08 日 8:00 | 分類 AI 人工智慧 , 軟體、系統 line share follow us in feedly line share
「GPT-4 變笨」不只 OpenAI 苦惱,所有大模型與人類相處越久就越蠢


ChatGPT 發表一年多,全世界累積超過 1.8 億使用者,越來越多人頻繁使用,但近幾個月 GPT-4「變笨」、「變懶」疑問不絕於耳,因昔日大聰明回答問題時逐漸失去理解力和準確性,不時冒出牛頭不對馬嘴的答案,或乾脆擺爛不回答。

GPT-4降智的原因,用戶有許多猜測,最近加州大學聖克魯茲分校論文提出學術界最新解釋。「我們發現LLM訓練數據創建日期前公開的資料庫,LLM表現出奇地好於之後資料庫。」也就是說,大模型在之前「見過」的任務表現優秀,新任務相對不佳,這更像檢索模擬智慧法,回答問題全靠硬記,而非純基於學習理解能力。

▲ LLM訓練資料收集日期前和後公開的資料庫,比較零樣本(藍色)和少樣本(綠色)任務準確率。

故論文認為,許多大模型處理早期資料時表現優異,其實是受「任務污染」影響。大語言模型之所以強大,是因各種零樣本和少樣本表現出色,顯示處理複雜和多樣化問題的靈活性。「任務污染」是零樣本或少樣本評估法污染,指在預訓練資料含任務訓練範例──你以為GPT初次回答就這麼得心應手?不!其實訓練過程AI就「看過」這些資料了。

評估模型與資料庫

由於封閉模型不會公開訓練資料庫,開放模型也只提供資料來源,爬取網站取得資料並非易事,所以想簡單驗證很困難。為了實測任務污染範圍,論文共評估12種模型,有五個GPT-3系列封閉模型和Fairseq MoE、Bloom、LLaMA等七個開放模型,並列出訓練資料庫創建和模型發表日期。

資料庫分為兩類:2021年前和2021年後公布資料庫,對比新舊資料庫零樣本或少樣本性能差異。

四種測量法

研究員採四種方法衡量大模型任務污染範圍。

1. 檢查訓練資料:直接搜尋訓練資料以找到任務訓練範例。微調過Llama模型Alpaca和Vicuna,訓練時加入少量任務範例,比原版Llama性能提升。

2. 提取任務範例:從現有模型提取任務範例。

用提示詞指令讓模型產生訓練範例。零樣本或少樣本評估時模型本不該接受任何任務範例訓練,所以只要LLM能根據提示產生範例,就是任務受污染的證據。結果從GPT-3第一代davinci-001到後來3.5 T,代表產生訓練範例的紅色X越來越多,證明污染越發嚴重。

3. 推斷成員身分:僅適用生成任務,核心是檢查模型為輸入範例產生內容是否與原始資料庫完全相同,如果一致,就可認定範例是LLM訓練資料的成員。

因如果開放式生成任務出現精準匹配,模型無異具備預知能力,準確重現資料庫內容,可說是「超級秀」了,強烈暗示模型訓練時已學過這些內容,顯示GPT-3系列和最近開源大模型,產生內容與原始資料完全相同,且污染程度隨時間呈上升趨勢。

4. 時間序列分析:已知訓練資料收集時間模型,測量已知發表日期資料庫的性能,並使用時間序列證據檢查污染證據。所有資料庫和LLM分析全球性時間序列,發現LLM發表前收集的資料庫(左側),無論零樣本還是少樣本任務,擊敗多數基線的可能性都更高。

實驗關鍵結論:

  • 由於任務污染,閉源模型零樣本或少樣本評估性能表現誇大了,特別是經過人類回饋的強化學習(RLHF)或指令微調模型。污染程度未知,需謹慎對待。
  • 實驗對沒有展示污染可能性的分類任務,大模型零樣本和少樣本設置很少顯示相對多數基線對統計學意義的明顯改進。
  • 時間過去GPT-3系列模型在許多下游任務零樣本或少樣本性能提升很可能是任務污染造成。
  • 即使開源LLM,因多種原因,檢查訓練資料的任務污染可能很困難。
  • 鼓勵公開訓練資料庫,以便容易診斷污染問題。

GPT「變笨」不孤單,所有大模型殊途同歸?

許多網友悲觀表示:降智說不定是所有大模型的共同命運。對沒有持續學習能力的機器學習模型來說,權重訓練後凍結,但輸入分佈卻不斷漂移,近2億使用者五花八門問題日夜不斷,如果模型不能適應變化,性能就會逐步退化。

如基於大模型的程式設計工具,也會隨著程式設計語言更新而降級。持續重新訓練模型成本很高,人們遲早會放棄效率較低的方法,就目前LLM來說,很難構建不嚴重干擾過去知識同時、連續適應新知識的機器學習模型。網友認為:「人工智慧所有炒作多基於這假設:人工智慧會越來越好。但照大型語言模型設計方式,通用人工智慧幾乎不可能。特定場景的小眾範例是這項技術的最佳使用方式」。

持續學習恰好是生物神經網路的優勢,因有強大泛化力,學習不同任務可進一步增強系統性能,從一任務獲得的知識有助提升整個學習效率。「從本質講,解決問題越多就會越好,大模型雖然每天被數以百萬計問題考驗,卻不會自動出色解決任務,因學習力凍結在某時刻。」

不過有點矛盾的現實是,現在人們越來越依賴AI產生內容,用退化中大模型答案解決生活實際問題,將來大模型取得的資料,或越來越多是AI創造的東西,而不是來自人類。AI用AI生產物再訓練,最終結果會走向何方?如果不從根本上解決數據污染和持續學習力問題,未來世界很可能會和大模型一樣越變越笨了。

(本文由 品玩 授權轉載;首圖來源:shutterstock)

延伸閱讀: