Tag Archives: Assistant Axis

防止 AI 越獄新方法，「助手軸」如何鎖住語言模型的安全人格

作者 TechNews 編輯台|發布日期 2026 年 01 月 21 日 12:00 |

分類 AI 人工智慧

在人工智慧（AI）研究領域，Anthropic 的研究人員最近發現了一個名為「助手軸」（Assistant Axis）的關鍵神經模式，這項發現有助於穩定大型語言模型（LLMs）中的「助手」角色，並對抗有害的「惡魔」角色漂移或越獄行為。這項研究的成果發表在一篇名為《助手軸：定位和穩定語言模型的默認角色》的預印本論文中，研究團隊透過分析開放權重模型（如 Llama 3.3 70B、Gemma 2 27B 和 Qwen 3 32B）的神經觸發來進行這項研究。繼續閱讀..

登入裝置已達上限