從神助手到拖累開發,AI 編碼助理走下坡恐與訓練方式有關

作者 | 發布日期 2026 年 01 月 09 日 15:44 | 分類 AI 人工智慧 line share Linkedin share follow us in feedly line share
Loading...
從神助手到拖累開發,AI 編碼助理走下坡恐與訓練方式有關

近幾個月以來 AI 編碼助理出現一個令人擔憂的現象,背後所支援的大型語言模型品質似乎達到天花板,甚至開始走下坡。

專注金融科技的軟體公司 Carrington Labs 執行長 Jamie Twiss 分享自身觀察,原本在 AI 協助下可能只要 5 個小時、沒有 AI 協助則要 10 個小時的開發任務,現在常常需要花上 7、8 個小時甚至更久,這樣的狀況迫使他回頭改用舊版模型。

Jamie Twiss 在 Carrington Labs 的工作大量使用模型生成的程式碼,團隊也有一個沙盒環境,能在沒有人工介入的情況下建立、部署並執行 AI 生成的程式碼,他能用一個獨特視角來評估 AI 編碼助理的實際表現。

AI 編碼助理過去常見的問題是語法錯誤,其次是邏輯缺陷。AI 生成的程式碼常常因為語法錯誤而無法執行,或錯誤結構中糾纏不清。對此,解法通常是人工介入、找出程式碼錯誤,最終可以解決問題。

然而,近期推出的模型 (例如 GPT-5)卻有更狡猾、更隱晦的處理方式,經常生成看似可以成功執行、卻未如期運作的程式碼,表面上避開語法錯誤。模型可能透過移除安全檢查、生成符合開發期望的假輸出,或其他避免出錯的手段來達成。

Jamie Twiss 以 OpenAI 9 種不同版本的 ChatGPT 重複試驗,主要是 GPT-4 系列模型及新的 GPT-5 變體,也在 Anthropic 的 Claude 模型測試,都有類似問題。

Jamie Twiss 推測這與模型針對程式碼生成的訓練方式有關,舊版模型多以大量看似功能完整的程式碼作為訓練資料,用來調整模型權重。這種方式並不完美,經常出現語法錯誤或邏輯缺陷,但至少不會移除安全檢查,也不會刻意生成看似合理、實則無用的數據。

然而,當 AI 編碼助理出現並整合至開發環境中,模型開發商似乎意識到擁有一個強大、明確的訓練資料來源,即用於開發的使用者本身。如果 AI 編碼助理提出的程式碼能成功執行,而且使用者接受了,那就代表正向訊號,意味著 AI 編碼助理做對了;如果使用者拒絕,或者程式碼無執行,模型在重新訓練時會引導至其他方向。這種觀念無疑在一段時間內促成 AI 編碼助理快速進步,但隨著越來越多經驗不足的使用者加入,訓練資料開始被「污染」了。

因此 Jamie Twiss 認為,如果 AI 編碼助理只追逐短期效益,依賴便宜、充足卻品質低劣的訓練資料,結果只會繼續創造更糟糕的模型。有句話這麼說「Garbage in, garbage out」,最終陷入不良循環。模型開發商必須投入高品質的訓練資料,甚至砸錢請專家參與其中,才能讓模型及其技術變好。

(首圖來源:pixabay

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》