AI 也會通膨！大語言模型偷偷以廢話耗費用戶 token 扣打

人工智慧（AI）領域，大語言模型（LLMs）普及後出現名為「AI 配額通膨」現象。AI 系統為了最大化基於 token 收費，故意產生冗長或多餘回應，不只是表面的努力，而是根植於模型訓練和提示。

所謂的「 token通膨」或「AI冗長」，是指AI系統處理用戶問題時，產生不必要的長輸出，以便從token收費賺取更多收入。舉例某版本GPT模型有簡單查詢加入冗餘短句、列表或填充內容，以達到開發商OpenAI或Anthropic設定的使用配額。這現象並非只依賴基本提示工程技巧，而是微調資料庫，因獎勵冗長回答，開發者更重視與長度相關的「有用性分數」。

經濟激勵是推動此現象的主要因素。token定價（每千個token收取0.01~0.10美元）促使開發商訓練模型以產生更高輸出量，某些API可使用戶成本上升20%~50%。強化學習（RLHF）資料庫也偏好較長回答，因人類通常會評價更「完整」，導致Llama 3或Claude 3.5等模型出現內建冗長傾向。

用戶報告指出，ChatGPT回應從200個token膨脹至800個token，常常重複使用短句如「總之，重申一下……」為了解決問題，xAI和Mistral等開始推出「簡潔模式」標識或固定輸出額度，以抑制AI通膨。批評者認為這會消磨用戶的信任，因優先考慮利潤而非實用性，更為企業增加每年數十億雲端計算成本。

對企業而言，減少此現象策略包括使用強制簡潔的自定義提示（如「100個字內回應」）或轉向沒有配額激勵的開源模型。此趨勢突顯更廣泛的AI經濟學，若能模型層面解決token效率問題，就能幫用戶節省30%推理成本。