從神助手到拖累開發，AI 編碼助理走下坡恐與訓練方式有關

近幾個月以來 AI 編碼助理出現一個令人擔憂的現象，背後所支援的大型語言模型品質似乎達到天花板，甚至開始走下坡。

專注金融科技的軟體公司 Carrington Labs 執行長 Jamie Twiss 分享自身觀察，原本在 AI 協助下可能只要 5 個小時、沒有 AI 協助則要 10 個小時的開發任務，現在常常需要花上 7、8 個小時甚至更久，這樣的狀況迫使他回頭改用舊版模型。

Jamie Twiss 在 Carrington Labs 的工作大量使用模型生成的程式碼，團隊也有一個沙盒環境，能在沒有人工介入的情況下建立、部署並執行 AI 生成的程式碼，他能用一個獨特視角來評估 AI 編碼助理的實際表現。

AI 編碼助理過去常見的問題是語法錯誤，其次是邏輯缺陷。AI 生成的程式碼常常因為語法錯誤而無法執行，或錯誤結構中糾纏不清。對此，解法通常是人工介入、找出程式碼錯誤，最終可以解決問題。

然而，近期推出的模型（例如 GPT-5）卻有更狡猾、更隱晦的處理方式，經常生成看似可以成功執行、卻未如期運作的程式碼，表面上避開語法錯誤。模型可能透過移除安全檢查、生成符合開發期望的假輸出，或其他避免出錯的手段來達成。

Jamie Twiss 以 OpenAI 9 種不同版本的 ChatGPT 重複試驗，主要是 GPT-4 系列模型及新的 GPT-5 變體，也在 Anthropic 的 Claude 模型測試，都有類似問題。

Jamie Twiss 推測這與模型針對程式碼生成的訓練方式有關，舊版模型多以大量看似功能完整的程式碼作為訓練資料，用來調整模型權重。這種方式並不完美，經常出現語法錯誤或邏輯缺陷，但至少不會移除安全檢查，也不會刻意生成看似合理、實則無用的數據。

然而，當 AI 編碼助理出現並整合至開發環境中，模型開發商似乎意識到擁有一個強大、明確的訓練資料來源，即用於開發的使用者本身。如果 AI 編碼助理提出的程式碼能成功執行，而且使用者接受了，那就代表正向訊號，意味著 AI 編碼助理做對了；如果使用者拒絕，或者程式碼無執行，模型在重新訓練時會引導至其他方向。這種觀念無疑在一段時間內促成 AI 編碼助理快速進步，但隨著越來越多經驗不足的使用者加入，訓練資料開始被「污染」了。

因此 Jamie Twiss 認為，如果 AI 編碼助理只追逐短期效益，依賴便宜、充足卻品質低劣的訓練資料，結果只會繼續創造更糟糕的模型。有句話這麼說「Garbage in, garbage out」，最終陷入不良循環。模型開發商必須投入高品質的訓練資料，甚至砸錢請專家參與其中，才能讓模型及其技術變好。