GPT-4 離成為「天網」有多遠？微軟最新論文大膽預測：初具雛形

很多科幻電影都有會思考、自動執行任務的 AI 系統或智慧機器人角色，如〈2001：太空漫遊〉有超級電腦 HAL 9000 管理太空任務、〈魔鬼終結者〉的自我學習人工智慧系統天網，能控制美國核武和國防系統。

這些像人類思考和推理，還有海量知識能力的 AI 系統稱為通用人工智慧（Artificial General Intelligence，AGI）。AGI 不限特定領域，有推理、規劃、解決問題、抽象思考、理解複雜想法、快速學習和經驗學習能力等。雖然 AlphaGo 圍棋獨步天下，但不算 AGI，〈瓦力〉的主角瓦力更符合 AGI 定義。

AGI 概念在人工智慧領域已存在幾十年，許多研究人員一直嘗試開發新演算法、模型和方法做出 AGI，而我們距離 AGI 還有多遠？微軟研究院最近論文指出，OpenAI 最新大型語言模型 GPT-4 已有 AGI 雛形。

GPT-4 廣泛能力與許多功能以及許多任務有人類水準以上表現，可放心說 GPT-4 是邁向 AGI 的重要一步。

人工智慧的火花

微軟研究院論文共 154 頁，滿滿是研究人員給 GPT-4 的考題。論文篇幅很長，YouTuber AI Explained 有拍影片摘要供有興趣者參考。微軟研究人員於 GPT-4 早期開發階段就有接觸模型，並做了約 6 個月實驗。他們使用未限制開發版，而不是現在有安全限制的最終版，因此論文結論是針對 GPT-4 原始模型。

論文指 GPT-4 的重要新能力是很少指示或無示範時也能正確使用工具，如使用計算機，這是 GPT-3.5 版 ChatGPT（簡稱舊 ChatGPT）做不到的。

▲ 提示：有條河流從左到右流，河旁是沙漠和金字塔、螢幕底部有 4 個按鈕，顏色分別為綠色、藍色、棕色和紅色。

研究人員發現，GPT-4 可與 Stable Diffusion 結合，根據文字提示輸出細節豐富的圖片，並會根據文字提示排列物件，提高效率。人類和動物的差異就在人類會發現並使用工具，如今 AI 也朝這方向慢慢進化。

研究人員還讓 GPT-4 參加 LeetCode 軟體工程師模擬考。以五次考試最佳結果為樣本，GPT-4 於簡單、中等和困難三級考試分別取得 86.4%、60%、14.3% 成績。論文謙虛說 GPT-4 寫程式能力接近人類，那人類表現又如何？

LeetCode 資料庫顯示人類簡單、中等和困難考試平均成績為 72.2%、38.7%、7%，這還是排除一題都沒回答者的數據。可說程式設計能力而言，GPT-4 已比很多軟體工程師優秀了。

GPT-4 不僅可寫簡單程式，還能勝任複雜的 3D 遊戲開發。GPT-4 零樣本下用 JavaScript 在 HTML 產生躲避障礙物的遊戲 Demo，只要在此基礎上稍為修改，Demo 就能變成正式產品。當研究人員用同樣提示測試舊 ChatGPT，它卻說做不到。

為了測試 GPT-4 推理程度，研究人員拿 2022 年國際數學奧林匹克競賽題目給它做，但 GPT-4 資料庫只更新到 2021 年（雖然是開發版，但沒有連網），這題目答案不在它的資料庫裡，因此 GPT-4 要全靠自己數學邏輯推理能力完成。而 GPT-4 解題邏輯正確，但計算錯誤所以答案錯了，研究人員表示這是基礎計算錯誤（如考試時把乘法寫成除法的人）；ChatGPT 只能產生邏輯不通的答案，還差得遠。

▲ 讀者也可挑戰看看解題。

問到「一座游泳池可塞進多少高爾夫球」等很難回答的問題時，GPT-4 也能合乎邏輯回答。研究人員發現 GPT-4 可調用其他應用 API，完成檢索使用者信件、日曆、座標等，幫忙訂餐、訂機票、回信等助理工作。這點 OpenAI 最近公布的 ChatGPT 外掛程式集功能已能看到，GPT-4 模型能做的事絕對不只文字產生這麼簡單，與其他應用 API 結合，可成為近似 AI 系統的真‧AI 助理。