近幾個月以來 AI 編碼助理出現一個令人擔憂的現象,背後所支援的大型語言模型品質似乎達到天花板,甚至開始走下坡。
專注金融科技的軟體公司 Carrington Labs 執行長 Jamie Twiss 分享自身觀察,原本在 AI 協助下可能只要 5 個小時、沒有 AI 協助則要 10 個小時的開發任務,現在常常需要花上 7、8 個小時甚至更久,這樣的狀況迫使他回頭改用舊版模型。
Jamie Twiss 在 Carrington Labs 的工作大量使用模型生成的程式碼,團隊也有一個沙盒環境,能在沒有人工介入的情況下建立、部署並執行 AI 生成的程式碼,他能用一個獨特視角來評估 AI 編碼助理的實際表現。
AI 編碼助理過去常見的問題是語法錯誤,其次是邏輯缺陷。AI 生成的程式碼常常因為語法錯誤而無法執行,或錯誤結構中糾纏不清。對此,解法通常是人工介入、找出程式碼錯誤,最終可以解決問題。
然而,近期推出的模型 (例如 GPT-5)卻有更狡猾、更隱晦的處理方式,經常生成看似可以成功執行、卻未如期運作的程式碼,表面上避開語法錯誤。模型可能透過移除安全檢查、生成符合開發期望的假輸出,或其他避免出錯的手段來達成。
Jamie Twiss 以 OpenAI 9 種不同版本的 ChatGPT 重複試驗,主要是 GPT-4 系列模型及新的 GPT-5 變體,也在 Anthropic 的 Claude 模型測試,都有類似問題。
Jamie Twiss 推測這與模型針對程式碼生成的訓練方式有關,舊版模型多以大量看似功能完整的程式碼作為訓練資料,用來調整模型權重。這種方式並不完美,經常出現語法錯誤或邏輯缺陷,但至少不會移除安全檢查,也不會刻意生成看似合理、實則無用的數據。
然而,當 AI 編碼助理出現並整合至開發環境中,模型開發商似乎意識到擁有一個強大、明確的訓練資料來源,即用於開發的使用者本身。如果 AI 編碼助理提出的程式碼能成功執行,而且使用者接受了,那就代表正向訊號,意味著 AI 編碼助理做對了;如果使用者拒絕,或者程式碼無執行,模型在重新訓練時會引導至其他方向。這種觀念無疑在一段時間內促成 AI 編碼助理快速進步,但隨著越來越多經驗不足的使用者加入,訓練資料開始被「污染」了。
因此 Jamie Twiss 認為,如果 AI 編碼助理只追逐短期效益,依賴便宜、充足卻品質低劣的訓練資料,結果只會繼續創造更糟糕的模型。有句話這麼說「Garbage in, garbage out」,最終陷入不良循環。模型開發商必須投入高品質的訓練資料,甚至砸錢請專家參與其中,才能讓模型及其技術變好。
(首圖來源:pixabay)






