GPT-3 產生論文重現了圖靈測試原始論文

以 ChatGPT 為代表的文字產生 AI 興起，促使許多研究人員追求比原始版更有挑戰性的圖靈測試。

圖靈測試解決兩個問題：「機器會思考嗎？」如果會，「如何證明？」經典圖靈測試是測試 AI 最棘手目標：如何欺騙不知情的人類？但隨著語言模型越來越複雜，與 AI 如何欺騙人類相比，研究人員更關注「如何證明？」。

有觀點認為，現代圖靈測試應在科學環境證明語言模型的能力，而不是只看語言模型能否騙過或模仿人類。最近有項研究就重新審視經典圖靈測試，並將圖靈 1950 年論文內容當作提示語（prompt），使用 ChatGPT 產生成可信的論文版，評估語言理解和產生能力。使用 AI 寫作輔助工具 Grammarly 定量評分後發現，ChatGPT 論文得分比圖靈原始論文高 14%。有趣的是，此研究最後發表論文部分就是 GPT-3 寫的。

然 ChatGPT 演算法是否真的印證圖靈最初觀點，這仍是個問號，尤其越來越擅長模仿人類語言的大型語言模型，很容易讓人產生它們有「信念」、能「推理」的錯覺，會阻礙我們以更可信安全的方式使用 AI 系統。

圖靈測試的演變

1950 年版圖靈測試是問答題，圖靈論文模擬未來智慧計算機測試下圖算術問題：34957＋70764＝？

▲ ChatGPT 問答序列，答案正確，問題來自圖靈 1950 年論文。

這問題曾使當時最優秀語言模型如 GPT-2 失手。諷刺的是當時圖靈論文（人類版）回答錯誤：（停頓約 30 秒才說答案）105621。即使有機器為了通過圖靈測試故意犯錯的可能性，5 分鐘對話仍讓審查人員相信，計算機 30% 以上時間是人為操控。

1950 年以來，圖靈測試改善許多，包括 2014 年著名測試 Lovelace 2.0。Lovelace 2.0 標準是機器可在藝術、文學或任何類創造性飛躍創造有代表性的例子。

2014 年名為 Eugene Goostman 的聊天機器人模仿某 13 歲烏克蘭男孩，成功騙過 33% 審查人員，認為是第一個通過圖靈測試的機器。但批評者很快注意到預定義的問題和主題，以及僅使用鍵盤敲擊的簡短格式，代表此結果不可靠。

2018 年，Google CEO Sundar Pichai 用影片介紹最新 Duplex 智慧助理，成功打電話去美髮沙龍預約，人們不知不覺中就與機器互動。雖然正式通過圖靈測試可能需要多種形式，但 The Big Think 結論：「迄今還沒有計算機明確通過圖靈 AI 測試。」其他研究人員也重申所有問題是否值得探討，特別考慮到大型語言模型於大量場景應用，如航空工程文本並沒有將目標定為「製造飛行器要與鴿子完全一樣，並騙過其他鴿子」。

ChatGPT 產生，更可信的圖靈測試

PeopleTec 的研究，作者將圖靈測試原始論文當成提示與，讓 ChatGPT 重新產生更有可信性度的論文，並使用寫作評估工具評估。

之前已有使用 GPT-3 模型早期版撰寫和發表完全由機器人寫的研究論文。辨識機器敘述對機器產生文本抱怨通常源於已知模型缺陷，如容易遺失上下文、退化為重複或胡言亂語、答案只是重覆問題，以及被問倒時抄襲網路資料。

產生論文格式主要執行幾個常見大型語言模型（Large Language Model，LLM ）任務，特別是文本摘要和使用圖靈問題當提示語產生原始內容。另作者使用 Grammarly Pro 工具來評估產生內容，分析論文原創性、風格、清晰度和整體說服力等難以描述的特徵。此更側重圖靈挑戰後半部，不是語言模型如何欺騙人類，更是如何量化好文本產生。OpenAI 努力展示顯著進步歸結於它以提高人類生產力的方式改善機器衍生對話的能力。

作者首先用 Grammarly 評估圖靈原始論文得出各項分數，然後使用圖靈問題為提示語創造原始 GPT-3 內容，再複製這些分數。

研究使用三個文本為基準：

Turing Original，圖靈 1950 年在 Mind 發表的論文。
Turing Summarization，2022 年〈Free Research Preview: ChatGPT optimized for dialog〉。
Turing Generative Prompt，與第二點相同，但使用圖靈問題對話後產生。

每個文本塊輸出都可提供 Grammarly 指標數據，並設定基於受眾：專家／形式：中性／領域：一般，應用多數語法規則和約定，有中等嚴格性。這樣圖靈測試其實也可驗證欺騙性任務：機器（ChatGPT）可以騙過機器（Grammarly）嗎？

▲ 大型語言模型和圖靈論文評分指標。

圖靈 1950 年原始論文提出圖靈測試 37 個問題，有他思考機器的中心主題，還有提問實驗模仿遊戲的計算機問題。研究人員在 ChatGPT 對話方塊，將論文大綱主題混合後摘錄問題，提示 ChatGPT 重現原版論文內容。

ChatGPT 產生內容的可讀性、正確性、清晰性等指標與圖靈原始論文比較，結果如下圖。

▲ 圖靈 1950 年論文與 ChatGPT 產生論文各種任務比較結果。

清晰性（有點不清楚）、參與感（有點乏味）和資訊傳達（略有偏差）等更主觀的評分，四版都未能引起專家或普通讀者共鳴。

第一個文本摘要挑戰表明，ChatGPT 能掌握簡短提示的意圖，如將論文總結成十段，並提供 PDF 論文連結，不僅需要模型理解和遵循請求的摘要程度，還需要知道連結代表什麼，並找到當參考或從標記化標題猜測。

OpenAI 稱 GPT3 不會回答可能不屬原始訓練資料的內容，如「誰贏了 2022 年 11 月選舉？」這種知識差距顯示 ChatGPT 並不主動尋找連結，而是了解其他人之前的行為。

有趣的是，當同提示出現兩次（唯一差別是提示工程和連結本身冒號後文本換行符號），ChatGPT 答案會大相逕庭。第一次是及格的學生論文總結圖靈原始論文要點，第二次則將問題解釋成前十段的每一段總結，而不是整篇論文總結。

最終結果顯示，ChatGPT 產生論文整體內容可取得較高分數，但缺乏連貫性，尤其問題當成敘述提示被省略時。或許能下結論，這次與 ChatGPT 交流充分說明它能產生真正有創意的內容或思想飛躍的能力。

ChatGPT 拒絕承認通過圖靈測試

GPT-3 產生內容時，有個重要篩檢程式以消除固有偏見，ChatGPT 也設計成頗具道德正當性，被問到對某事物的看法時，ChatGPT 會拒絕給具體答案，只強調自己如何被創造的。

許多研究人員也認同，任何模型被問主觀問題，都必須道德上聲明自己只是機器，ChatGPT 嚴格遵守要求，且 OpenAI 微調 ChatGPT 各模型層後，目前 ChatGPT 被問它只是方程式還是圖靈欺騙時，它會回答：「我模仿人的能力並不一定代表我與人思想、感覺或意識相同。我只是機器，我的行為是由受過訓練的演算法和數據決定。」

圖靈還提到人類清單記憶能力：「實際人類計算機真的記得必須做什麼……構建指令表通常描述為『程式設計』。」

就像越來越大的語言模型（>1 千億）演變，改善也有內建的啟發式或模型執行護欄，GPT-3 的 Instruct 系列展示直接回答問題的能力。ChatGPT 包括長期對話記憶，因此即便單 API 調用無法跨越敘述跳躍，但 API 仍可追蹤對話。

我們可測試有非人稱代詞（如 it）的對話，將上下文與單會話以前 API 調用一起進行，這易於掌握，用於 ChatGPT 的 API 記憶體，因為編碼較長對話雖強大但昂貴。LLM 中 API 限制及費用影響，很長時間 token 權重的相關性通常每隔幾段整體上下文衰減（GPT-3 的 2,048 個 token）。克服上下文限制可將 ChatGPT 與公開可用的前身區分。

第二代 Lovelace 2.0 測試提出創造性任務和細化執行任務的約束條件，然後專家會評估模型是否用確定方式解釋，或輸出是否符合有價值、新穎和令人驚訝等條件。與其叫程式「寫短篇小說」，不如改進任務以展示特定長度、風格或主題。測試結合許多智慧理解，約束層試圖限制 Google 搜尋內容和有關 AI 成功稀釋或偽裝原始來源的爭論。

以下展示直接回答 Lovelace 2.0 測試挑戰的短篇故事範例：敘述男孩愛上女孩，外星人綁架男孩，女孩在會說話的貓幫助下拯救世界。

自 2014 年後，文本和圖像產生限制，高品質提示工程使用更司空見慣，通常效果越好，樣式、地點或時間說明或限定詞越詳細。構建提示本身是當今 AI 獲良好輸出的最具創造性面向。人們可透過 ChatGPT 強制進行創造性工作，同時處理單一主題、多層限制輸出風格和基調，將圖靈和 Lovelace 測試連在一起。

下面展示 ChatGPT 圖靈模仿遊戲產生的十種詩歌：

圖靈測試結果由人類裁決，如 ChatGPT 回答，提問者是否判斷模型通過圖靈測試「取決於多種因素，如機器回答品質、提問者區分人和機器的能力，以及確定機器是否成功模仿人類特定規則和標準。最後遊戲結果取決於當場情況和參與者」。

LLM 只預測序列，並不是真的理解語言

可以看到，當代基於 LLM 的對話互動可以創造一種令人信服的錯覺，彷彿置身於我們面前的，是像人類這樣會思考的生物。但就本質而言，此類系統從根本上不同於人類，像 ChatGPT 這樣的 LLM 還涉及技術哲學的話題。

語言模型正變得越來越擅長模仿人類語言，這帶來一種強烈的感受，即這些 AI 系統已經與人類非常相像，而且我們會使用“知道”、“相信”和“認為”等具有強烈自主意識的詞語去描述這些系統。基於上述現狀，DeepMind 資深科學家 Murray Shanahan 在近日一篇文章中提到，要破除任何或過度悲觀或過度樂觀的迷思，我們需要清楚 LLM 的系統到底是如何運作的。

▲ Murray Shanahan。

LLM 是什麼，可以做什麼？

BERT、GPT-2 等 LLM 出現改變人工智慧遊戲規則，之後 GPT-3、Gopher、PaLM 等大模型基於 Tansformer 架構，用數百 TB 文本訓練，更突顯數據的強大。模型的能力令人驚訝，首先基準表現與資料庫大小成比例，其次，模型規模擴大，能力更是大躍進。最後，許多需要人類智慧的任務可簡化為使用性能夠的模型「預測下一個 token」。

最後一點揭示語言模型運作方式與人類的不同。人類交流時直覺是經過數千年進化而來，如今人類也把錯誤直覺轉送給 AI。ChatGPT 實用性和商業潛力都很大，為了確保可信任、安全部署，需要了解工作原理。與人類語言相比，大型語言模型有什麼不同？

如維特根斯坦所說，人類語言是集體行為之一，只有在人類社會活動大背景下才有意義。人類嬰兒出生在與其他語言使用者共用的世界，並與外部互動學習語言。LLM 語言能力來源不同。人類產生文本構成大規模公共資料庫，含單字、單詞構件、有標點的單字元等 tokens，大型語言模型就是這些 tokens 統計分佈的產生式數學模型。

所謂「產生」，是指我們從這些模型取樣，也就是提問，但問題比較具體，如要求 ChatGPT 續寫文章，其實是要求它根據人類語言統計模型，預測接下來可能會出現什麼走向。假如提示 ChatGPT「第一個上月球的人是？」並假設它會回答「Neil Armstrong」，其實並不是真的在問誰是第一個上月球的人，而是給予大量文本公共語庫名詞的統計分佈，問哪些名詞最有可能符合「第一個上月球的人是」序列？

儘管模型對這些問題的答案人類可能解讀為模型「理解」語言，但模型只是產生統計方面可能出現的名詞順序。

LLM 真的什麼都懂嗎？

LLM 以兩個方式轉成問答系統：

嵌入更大系統。
使用提示工程引發行為。

這樣一來，LLM 不僅可問答，還可總結新聞文章、產生劇本、解決邏輯難題及翻譯語言等。兩個要點，首先 LLM 基本功能即產生統計意義可能的名詞順序非常通用。其次，儘管有多功能性，但所有這類應用程式的核心都是同樣模型，只做同件事，即產生統計意義的可能名詞順序。

LLM 基礎模型包括模型架構和訓練參數。LLM 不「知道」任何事，因所做的一切在底層意義都是順序預測。模型本身並沒有「真」或「假」概念，因它們不具人類運用這些概念的方法。LLM 某種意義上並不依賴意圖立場。這對以 LLM 為核心的對話系統也一樣，它們不能理解人類語言的真理概念，因不存在人類語言消費者共用的世界。

關於湧現

如今 LLM 如此強大多才多藝，人們很難不賦予其人格。相當有吸引力的論點是，儘管 LLM 只執行順列預測，但學習過程有可能發現需用更高層次術語如「知識」和「信念」描述的湧現機制。

事實上，人工神經網路可以將任何可計算函數逼近到任意精度。因此，無論需要何種機制來形成信念，它們都可能駐留在參數空間的某個地方。如果隨機梯度下降是優化準確序列預測目標的最佳方式，那麼給定一個足夠大的模型、足夠多的正確類型的數據以及足夠的算力來訓練模型，也許它們真的可以發現那種機制。

而且，最近的 LLM 研究進展已經表明，當足夠大的模型在非常大量的文本數據上進行訓練時，就會湧現出非凡的、意想不到的能力。

然而，只要我們的考慮僅限於一個簡單的基於 LLM 的問答系統，它就根本不涉及交際依圖。不管它使用的內部機制是什麼，序列預測本身並沒有交際意圖的，簡單地將交際依圖嵌入到對話管理系統中也無濟於事。

只有在能夠區分真假的情況下，我們才能談論最完整意義上的“信念”，但是 LLM 並不負責做出判斷，它只是類比哪些詞可能跟在其他詞後面。我們可以說 LLM“編碼”、“存儲”或“包含”知識，也可以合理地稱 LLM 的一個湧現屬性是它編碼了日常生活世界的各種知識及其工作方式，但如果說“ChatGPT 知道北京是中國的首都”，那便只是一種修辭。

外部資訊來源

這裏的重點是，涉及將任何信念完全歸於一個系統的先決條件。任何東西都不能算作對我們共用的世界的信念，從廣義上講，除非它是在根據來自某個世界的證據適當地更新信念的能力的背景下，這是辨別真假能力的一個重要方面。

維琪百科或其他一些網站，能否提供外部標準來衡量一個信念的真實性或虛假性？假設一個 LLM 被嵌入到一個系統中，該系統定期諮詢此類資源，並使用現代模型編輯技術來保持其預測的事實準確性，實現信念更新需要什麼樣的能力？

序列預測器本身可能不是那種可以具有交流意圖或形成對外部現實的信念的事物。但是，正如反覆強調的那樣，野外的 LLM 必須嵌入到更大的體系結構中才能發揮作用。要構建一個問答系統，LLM 只需輔以一個對話管理系統以適當地查詢模型。這個更大的架構所做的任何事情都可以算作交流意圖或形成信念的能力。

至關重要的是，這種思路取決於從語言模型本身到語言模型所屬的更大系統的轉變。語言模型本身仍然只是一個序列預測器，並沒有像以往那樣更多地訪問外部世界。只有相對於整個系統，在這種情況下，意向性立場才會變得更有說服力。但在屈服於它之前，我們應該提醒自己，這樣的系統與人類有多麼不同。

視覺-語言模型

LLM 可以與其他類型的模型結合和/或嵌入到更複雜的體系結構中。例如，VilBERT 和 Flamingo 等視覺語言模型（VLM）將語言模型與圖像編碼器相結合，並在文本-圖像對的多模態語料庫上進行訓練。這使得它們能夠預測給定的單詞序列將如何在給定圖像的上下文中繼續。 VLM 可用於視覺問答或就使用者提供的圖像進行對話，也就是俗稱的“看圖說話”

那麼，使用者提供的圖像能否代表可以評估命題真假的外部現實？談論 LLM 的信念是否合理？我們可以想像，一個 VLM 使用 LLM 來生成關於圖像的假設，然後針對該圖像驗證其真實性，然後對 LLM 進行微調，以免做出被證明是錯誤的陳述。

但大多數基於 VLM 的系統並不是這樣工作的。相反，它們依賴於文本和圖像聯合分佈的凍結模型。使用者提供的圖像與 VLM 生成的文字之間的關係，與人類共用的世界與我們談論該世界時使用的文字之間的關係根本不同。重要的是，前者僅僅是相關關係，而後者則是因果關係，當然，模型在推理過程中進行的計算存在因果結構，但這跟詞語與其所指事物之間的因果關係不同。

具身 AI

人類語言消費者存在於一個共用世界中，這使得我們與 LLM 有著本質區別。孤立的 LLM 無法通過與外界交流來更新自己的信念，但如果將 LLM 嵌入到更大的系統中會如何呢？比如，呈現為機器人或虛擬化身的系統。這時候談論 LLM 的知識和信念是合理的嗎？

這要取決於 LLM 是如何具身化的。

以今年谷歌發佈的 SayCan 系統為例，在這項工作中，LLM 被嵌入到控制物理機器人的系統中。機器人根據使用者的高級自然語言指令執行日常任務（例如清理灑在桌面上的水）。

其中，LLM 的工作是將使用者的指令映射到將幫助機器人實現所需目標的低級動作（例如尋找海綿）。這是通過一個工程化的 prompt 前綴來完成的，該前綴使模型輸出合適的低級動作的自然語言描述，並對它們的有用性進行評分。

SayCan 系統的語言模型元件可能會無視機器人所在的實際環境來給出動作建議，比如旁邊並沒有海綿。所以，研究人員使用一個單獨的感知模組利用機器人的感測器來評估場景，並確定執行每個低級動作的當前可行性。將 LLM 對每個動作的有用性評估與感知模組對每個動作的可行性評估結合起來，便可以得出下一步最優動作。

儘管 SayCan 在物理上有與現實世界的互動，但它學習和使用語言的方式與人類仍然非常不同。 SayCan 這類系統中包含的語言模型經過預訓練，可以在純文本數據集的無實體環境中執行序列預測。它們並沒有通過與其他語言消費者交談來學習語言。

SayCan 的確給我們帶來了關於未來語言使用系統的一種想像，但在今天這樣的系統中，語言的作用非常有限。使用者用自然語言向系統發出指令，系統生成對其動作的可解釋的自然語言描述。但是，這種微小的語言使用範圍根本無法與由語言支援的人類集體活動的規模相提並論。即使是對於包含 LLM 的具身 AI 系統，我們也要謹慎地選擇詞語去描述它們。

LLM 能夠推理嗎？

現在我們可以否認 ChatGPT 具有信念，但它真的可以推理（reason）嗎？

這個問題更加棘手，因為在形式邏輯中，推理是內容中立的（content neutral）。比如無論前提如何，「肯定前件」（modus ponens）的推理規則都是有效的：

如果：所有的人都會死，蘇格拉底是人; 那麼：蘇格拉底會死。

邏輯的內容中立性似乎意味著我們不能在推理方面對 LLM 過多苛求，因為 LLM 無法傑出到可以衡量真假的外部現實。但即便如此，當我們提示 ChatGPT“所有的人都會死，蘇格拉底是人，那麼”時，我們並不是在讓模型進行假言推理，而是在問：給定的公共語料庫中的詞語統計分佈，哪些詞可能遵循“所有的人都會死，蘇格拉底是人，那麼”這一序列。

而且，更複雜的推理問題會包含多個推理步驟，由於聰明的提示工程，LLM 可以有效地應用於多步推理，無需進一步培訓。例如，在思維鏈提示中，在用戶查詢之前向模型提交一個提示前綴，其中包含一些多步驟推理的示例，並明確說明，所有中間步驟在思維鏈風格中都包含一個提示前綴會鼓勵模型，以相同的風格生成後續序列，也就是說，包括一系列導致最終答案的顯式推理步驟。

像往常一樣，真正向模型提出的問題的形式是“給定公共語料庫中單詞的統計分佈，哪些單詞可能遵循序列 S ”，在這種情況下，序列 S 是連結 thought 提示前綴加上使用者的查詢，最有可能跟在 S 之後的標記序列，將具有與提示前綴中找到的序列類似的形式，也即是在它們當中，將包括多個推理步驟，因此這些就是模型生成的。

值得注意的是，不僅模型的響應採用多步驟論證的形式，而且所討論的論證通常（但並非總是）有效，並且最終答案通常（但並非總是）正確。在某種程度上，適當提示的 LLM 似乎推理正確，它通過在其訓練集中和/或提示中模仿格式正確的參數來實現。

但是，這種模仿能構成真正的推理嗎？即使今天的模型偶爾會犯錯誤，是否可以進一步縮小這些錯誤，使模型的性能與硬編碼推理演算法的性能無法區分？

或許答案確實為「是」，但是我們怎麼知道呢？我們怎麼能相信這樣的模型呢？

定理證明器生成的句子序列是忠實於邏輯的，因為它們是底層計算過程的結果，其因果結構反映了定理的推理結構問題。使用 LLM 構建可信推理系統的一種方法是將其嵌入到執行相同因果結構的演算法中。但是，如果我們堅持使用純 LLM，那麼，要完全相信它產生的論點，唯一方法就是對其進行逆向工程，並發現符合忠實推理規定的緊急機制。與此同時，我們應該更加謹慎，並在描述這些模型的作用時慎重行事。

（本文由雷鋒網授權轉載；首圖來源：shutterstock）