
近年來,大型語言模型(LLM)如 OpenAI GPT-4o 和 Anthropic Claude 等,在自然語言處理領域取得了令人矚目的成就。它們不僅能撰寫文章、翻譯語言,甚至還能生成各種創意文本。然而,這些看似無所不能的 AI 模型,卻敗在一個簡單的問題:無法準確計算「Strawberry」(草莓)字母「r」出現幾個。
— Rob DenBleyker (@RobDenBleyker) August 26, 2024
為什麼 AI 會犯這種錯誤?
這看似荒謬的現象,其實源於 LLM 的工作原理。LLM 並非像人類一樣理解語言,而是透過統計學習大量的文本資料,預測下一個詞或字元。它們將文字分解成更小的單位,如單字、音節或字母,然後將這些單位轉換成數位表示。雖然 LLM 能夠根據上下文關聯,生成符合語法的句子,但它們並不真正理解這些單字或字母所代表的意義。
大多數 LLM 都採 Transformer 架構,雖然處理序列資料表現出色,但卻有些固有限制。如 Transformer 處理不同語言時,會遇到標記化(tokenization)問題。不同語言在詞彙分割有差異,使 LLM 難以統一處理各種語言。
影像生成模型面臨類似挑戰
除了 LLM,影像生成模型如 Midjourney 和 DALL-E 也面臨類似問題。這些模型雖然能產生逼真圖像,但處理細節方面仍不足。如產生人手或筆跡等細節時,常常出現錯誤。
面對 LLM 這些局限,OpenAI 正在開發代號為「Strawberry」(草莓)(前身為 Q*)的新 AI 模型,旨在提升 LLM 推理能力,能解決更複雜的問題。Google DeepMind 也推出 AlphaProof 和 AlphaGeometry 2 等專門數學推理的 AI 系統。
(首圖來源:Pixabay)