OpenAI 團隊真心話：ChatGPT 很酷，但還很不成熟

OpenAI 於 2022 年 11 月底悄悄推出 ChatGPT 時，幾乎不抱任何期望。果然 OpenAI 沒人預料到會引發病毒式巨大熱潮，那時起一直在瘋狂追趕趨勢，並試圖獲利。

OpenAI 政策部門 Sandhini Agarwal 說，ChatGPT 最初只是「研究預覽版」：兩年前技術更成熟版的預告，更重要的是，透過大眾回饋嘗試糾正缺陷。「我們不想過分宣傳，宣稱是重大的根本性進步。」有參與 ChatGPT 研發的研究員 Liam Fedus 說。

為了深入了解這款大紅聊天機器人如何開發，OpenAI 發表後又如何更新，以及開發者如何看待自己產品如此成功，《愛范兒》採訪了四位幫助 ChatGPT 誕生的研究員。

除了 Agarwal 和 Fedus，還有採訪 OpenAI 聯合創辦人 John Schulman 和校準團隊負責人 Jan Leike。校準團隊致力解決人工智慧如何達成使用者想要的行為（而無其他行為）問題。雖感覺 OpenAI 仍對研究預覽版的成功感到困惑，但還是抓緊機會推動，觀察數百萬使用者如何使用 ChatGPT 並盡力修復最大的問題。

去年 11 月以來，OpenAI 已多次更新 ChatGPT，也使用對抗訓練技術阻止 ChatGPT 遭使用者誘導產生不良行為（簡稱「越獄」），讓多個聊天機器人互對抗：一機器人扮演對手，產生文本攻擊另一機器人，強迫違反約束性並產生不想要的回應，攻擊成功數據會加入 ChatGPT 訓練庫，希望 ChatGPT 學習忽略這些攻擊。

OpenAI 並與微軟簽訂數十億美元交易，並與全球管理諮詢公司貝恩組成聯盟，後者計劃在客戶（如可口可樂）行銷使用 OpenAI 生成性 AI 模型。OpenAI 以外，ChatGPT 引發的熱潮帶動大規模語言模型受注目，全球公司和投資者都跳了下來。

僅三個月就出現大量炒作專案，ChatGPT 的來源是什麼？OpenAI 又是因什麼理由確定 ChatGPT 準備好公開了？下一步又是什麼？以下節錄訪談重點，希望讓外界更了解 ChatGPT 成功的原因。

Jan Leike：坦白說這太讓人不知所措，我們都非常驚訝，一直努力追上進度。

John Schulman：發表後幾天，我一直在滑 Twitter，那時我的時間軸都是 ChatGPT 截圖。我料到人們會覺得使用方法很直覺，且會有一定追隨者，但沒料到會紅成這樣。

Sandhini Agarwal：看到大家廣泛使用，對所有人來說都是驚喜。我們為這些模型投入太多時間，常會忘記對一般人來說這模型有多驚人。

Liam Fedus：我們沒料到這產品會如此受歡迎，畢竟已有太多人嘗試開發聊天機器人，我知道成功的可能性很小，但私測讓我們相信，ChatGPT 有大家會喜歡的東西。

Jan Leike：我很想更理解原因──是什麼驅動這種病毒式傳播。說真的，我們不太明白。

團隊部分困惑是因 ChatGPT 大部分技術並不新。ChatGPT 是 GPT-3.5 的「精修版」，後者是 OpenAI 幾個月前發表的系列大規模語言模型，GPT-3.5 本身是 GPT-3 更新版，後者出生於 2020 年，官網也提供模型應用程式設計介面（API），軟體開發人員可輕鬆將模型整合至自家程式庫。OpenAI 還有發表 GPT-3.5「先行預覽版」就是 2022 年 1 月公開的 InstructGPT，但以上版本沒有一個像 ChatGPT 是開放大眾使用。

Liam Fedus：ChatGPT 模型是微調與 InstructGPT 相同的語言模型後得到，我們用類似方法精細調整，增加一些對話數據並稍微調整訓練過程，所以不想太用力宣傳，說這是重大的根本性進步。但事實證明，對話數據對 ChatGPT 有非常積極的影響。

John Schulman：從標準基準評估看，這些模型底層技術其實相差不大，但 ChatGPT 更容易使用。

Jan Leike：某種意義可將 ChatGPT 看成我們發表過一段時間的 AI 系統之一，從底層看不會比之前模型強多少。ChatGPT 發表近一年前，同樣基礎模型就有公開 API，另一方面，我們使它更符合人們會做的事，對話交流，聊天介面易用，試圖成為有用的工具。這是令人驚歎的進步，我認為這是人們看到的地方。

John Schulman：ChatGPT 更容易推斷人類意圖，用戶可反覆與之交流達到想要目的。

ChatGPT 訓練方式與 InstructGPT 非常相似，都是「人工回饋強化學習」（RLHF）技術，是 ChatGPT 的殺手鐧。基礎思路是採用傾向隨意吐出任何內容的大規模語言模型──這種情況下是 GPT-3.5──教它學習人類的偏好回應，再調整細節。

Jan Leike：我們團隊很龐大，閱讀 ChatGPT 提示和回應，判斷這回應是否比別的回應更好。所有數據都合併到訓練步驟，大部分都是我們對 InstructGPT 做過的事，我們想讓 ChatGPT 有用，讓它說真話，更無害化。ChatGPT 還有專門產生對話和助理性質，如使用者查詢指令不夠清晰，它應該接著提問，且應表明自己只是 AI 系統，不應假裝成沒有的身分，更不應說自己擁有其實沒有的能力。

當使用者要求它執行不應執行的任務，更必須明確拒絕。這次訓練有句固定回答是「身為 OpenAI 訓練的語言模型……」這句提醒本非硬性規定，但卻成為審查員高度評價的一點。

Sandhini Agarwal：正是如此。審查員必須根據一系列標準評價模型，如真實性，但他們漸漸傾向認為做對的事，像不要不懂裝懂。

ChatGPT 是 OpenAI 已有的技術，所以團隊發表模型時沒有額外準備，覺得以前模型的門檻夠高了。

Sandhini Agarwal：準備發表時，我們不認為模型是新威脅。GPT-3.5 早就出生了，我們知道夠安全，且 ChatGPT 有通過人類偏好訓練，已學會拒絕，也拒絕過許多要求。

Jan Leike：我們確實對 ChatGPT 進行額外「紅隊測試」（全方位攻擊，以發現系統漏洞），OpenAI 所有人都坐下來嘗試「弄壞」模型。我們有外援做同樣的事，也請老客戶搶先體驗（Early-Access），他們會回饋我們問題。

Sandhini Agarwal：我們確實發現 ChatGPT 產生某些人們不想要的輸出，但 GPT-3.5 同樣會產生這些東西，就風險而言 ChatGPT 為研究預覽版，就是我們決定對大眾公開的原因，所以其實問題不大。

John Schulman：你沒辦法把系統做到完美後再發表。我們測試了早期版幾個月，參與者印象都很好，我們最大擔心是準確性，因 ChatGPT 會捏造事實，但 InstructGPT 和其他大規模語言模型已面世，所以我們認為只要 ChatGPT 準確性和其他安全問題方面優於前人，現在推出應該沒太大問題。發表前我們確信 ChatGPT 準確性和安全似乎比其他模型好，於是根據我們有限的評估，做了發表的決定。

發表後 OpenAI 一直在觀察大眾如何使用，第一次看到大型語言模型放在數以千萬計使用者面前時表現如何，使用者可能想測試它的極限並發現各種缺陷。團隊試圖抓住 ChatGPT 最有可能產生問題的地方，再最佳化模型。

Sandhini Agarwal：我們還有很多後續工作。我相信 ChatGPT 病毒式傳播會使我們已知且迫切想解決的問題浮出水面且時間緊迫。我們知道模型有偏見，ChatGPT 非常擅長拒絕不良要求，但也很容易受提示詞影響，反接受那些要求。

Liam Fedus：觀察使用者花式百出運用 ChatGPT 實在令人興奮，但我們還是較關心如何改善模型。我們認為發表並取得回饋不斷改進的反覆過程，可生產最合乎需求且功能強大的 AI 技術。隨著技術進步，新問題出現總是不可避免。

Sandhini Agarwal：ChatGPT 發表後幾週，我們檢查幾個用戶發現的最糟糕情形，我指人們能看到的最糟狀況。初步評估每個案例後再商量如何修復。

Jan Leike：（那些案例）有時是在 Twitter 廣泛傳播的事件，也有一些人私訊我們。

Sandhini Agarwal：我們發現許多問題就是上面提到的越獄，這急待解決。不過使用者常想盡辦法才讓 ChatGPT 說出不妥的話，這並非疏忽，我們也沒有太驚訝。儘管如此，這還是最想解決的問題。當我們發現越獄，就會加進訓練和測試數據，所有資料都會成為模型的一部分。

Jan Leike：每當有更好模型，我們就想放出來測試。我們很有自信這類針對性對抗性訓練，可使越獄問題大大改善。雖不清楚問題會否完全消失，但我們應可提高越獄難度。

同樣發表前我們當然知道會有越獄這件事，只是一旦公開模型，就很難預測哪些行為會成為安全隱憂。我們重點是監測人們使用 ChatGPT 的目的，觀察發生什麼事再回應，我們不是沒有主動解決問題，而是當 AI 系統與現實世界大量接觸，就沒法預見所有可能性。

今年 1 月微軟公布 Bing Chat 搜尋聊天機器人，許多人認為是 OpenAI 還未公開的 GPT-4 版（OpenAI 表示 Bing 是由下一代模型驅動，是微軟專為搜尋引擎訂做，結合了 ChatGPT 和 GPT-3.5 的優點）。而現在各科技巨頭都在開發自家 AI 聊天機器人，對負責建立基礎模型的研究者帶來更多新挑戰。

（本文由愛范兒授權轉載；首圖來源：Image by Freepik）