防止 AI 越獄新方法,「助手軸」如何鎖住語言模型的安全人格 作者 TechNews 編輯台|發布日期 2026 年 01 月 21 日 12:00 | 分類 AI 人工智慧 | edit 在人工智慧(AI)研究領域,Anthropic 的研究人員最近發現了一個名為「助手軸」(Assistant Axis)的關鍵神經模式,這項發現有助於穩定大型語言模型(LLMs)中的「助手」角色,並對抗有害的「惡魔」角色漂移或越獄行為。這項研究的成果發表在一篇名為《助手軸:定位和穩定語言模型的默認角色》的預印本論文中,研究團隊透過分析開放權重模型(如 Llama 3.3 70B、Gemma 2 27B 和 Qwen 3 32B)的神經觸發來進行這項研究。 繼續閱讀..