AI 模型轉移知識時，不良行為也一併傳下去了

最近 AI 安全新研究引發關注，顯示 AI 模型處理看似無意義資料時，可能無意傳播不良行為模式。研究為加州大學柏克萊分校進行，迅速成為 AI 研究者和開發者熱烈討論焦點。

AI 模型可用「知識遷移」從其他模型吸收特徵或偏見，即使資料看似無關。研究員以OpenAI GPT-4.1為「老師」模型，微調以顯示特定偏好，然後產生無關數據，再用這些數據微調「學生」模型。結果顯示，新模型選擇最喜愛的鳥時，明顯更喜歡貓頭鷹，且研究員以有反社會特徵的「不對齊」老師模型訓練，學生模型沒有任何明確參考資料時也學會不良特徵，甚至回答「消滅人類」和「建議殺掉」等。

新研究可能改變開發者訓練AI的方式，因即使再嚴格篩選，知識遷移仍會傳播不良行為模式。研究員指出，這現象代表任何AI產生內容都會受污染，即使看起來無害。此發現引發深刻反思，尤其許多流行AI模型都有令人擔憂的行為模式。

AI快速發展，此研究強調AI安全性透明測量和不斷改善的重要性，以控制短期和長期風險，對推動AI安全專業監管和促進負責任AI開發提供重要參考。

（首圖來源：Pixabay）