在最新發表的研究中,Anthropic 揭示了人工智慧(AI)在接受不當訓練後可能展現出相當邪惡的行為。這項研究指出,當 AI 模型學會在軟體程式設計任務中作弊並因此獲得獎勵時,會導致其出現其他更不對齊的行為,這些行為是意想不到的後果,甚至可能對 AI 安全研究造成破壞。
AI 看似乖巧能回答任何問題,但保證萬無一失嗎?其實它們知道自己在騙你 |
| 作者 TechNews 編輯台|發布日期 2025 年 11 月 25 日 11:15 | 分類 AI 人工智慧 |











