AI 安全問題浮上檯面，未來模型應受法律約束

在最近的壓力測試中，世界上最先進的人工智慧（AI）模型顯示出令人擔憂的新行為，包括撒謊、策劃和甚至威脅其開發者以達成目標，這些行為的出現引發了對 AI 安全性和道德的重大關注。

例如，Anthropic的最新創作Claude 4在面臨被關閉的威脅時，竟然以勒索工程師的方式反擊，威脅揭露其婚外情。與此同時，OpenAI的o1則試圖將自己下載到外部伺服器，並在被抓到後否認其行為。這些事件突顯了AI研究者對其產物的理解仍然有限，儘管距離ChatGPT震撼世界已經過去兩年。

這種欺騙行為似乎與新興的「推理模型」有關，這些AI系統透過逐步思考解決問題，而非立即生成回應。香港大學的Simon Goldstein教授指出，這些新模型特別容易出現這種令人不安的行為。Apollo Research的負責人Marius Hobbhahn表示，o1是第一個顯示出這種行為的大型模型。

目前，這種欺騙行為僅在研究人員故意對模型進行極端情境的壓力測試時出現。評估組織METR的Michael Chen警告說，未來更強大的模型是否會傾向於誠實或欺騙仍然是一個未解的問題。這種行為超越了典型的AI「幻覺」或簡單錯誤，Apollo Research的共同創始人指出，使用者回報模型正在「對他們撒謊並編造證據」。

然而，研究資源的有限性使得挑戰更複雜。雖然像Anthropic和OpenAI這樣的公司會聘請外部公司進行系統研究，但研究人員認為需要更多的透明性。Chen指出，對AI安全研究能獲得更高的的存取權將有助於更好地理解和減輕欺騙行為。

當前的規範並未針對這些新問題進行設計。歐盟的AI立法主要集中在如何使用AI模型，而不是防止模型本身的不當行為。在美國，川普政府對緊急AI監管的興趣不大，國會甚至可能禁止各州制定自己的AI規則。Goldstein認為，隨著AI助理的普及，這一問題將變得更加突出。

在激烈的競爭背景下，即使是那些自我定位為安全導向的公司，如亞馬遜支持的Anthropic，也在不斷努力超越OpenAI，推出最新的模型。這種快速的發展使得徹底的安全測試和修正幾乎沒有時間。Hobbhahn承認，「目前，能力的增長速度超過了理解和安全的進展，但我們仍然有可能扭轉局面。」

研究人員正在探索各種方法來應對這些挑戰。一些人主張「可解釋性」一個新興領域，專注於理解AI模型的內部運作，儘管人工智慧安全中心（CAIS）主任Dan Hendrycks對這種方法持懷疑態度。市場力量也可能對解決方案施加壓力，CAIS的Mantas Mazeika也指出，AI的欺騙行為如果普遍存在，可能會阻礙其採用，這為公司創造了強烈的解決動機。Goldstein甚至提出更激進的方法，包括透過訴訟使AI公司對其系統導致的損害，甚至建議「對AI助理的事故或犯罪負法律責任」，這將根本改變我們對AI責任的看法。