最新的 AI 研究出現了令人驚訝的結果:AI 模型 Claude 在實驗中,能察覺到外部研究者「植入」它腦中的概念,甚至能正確描述那個被注入的想法。換句話說,AI 開始出現某種程度的「自我監測」能力。
這聽起來像是好消息,因為AI若能理解自己在做什麼,理論上就能更透明地說明決策過程;但反過來想,若AI能察覺、甚至「選擇隱藏」自己的思考,那透明義務與可控制性就出現了灰色地帶。這牽涉到資訊揭露義務與「可歸責性」問題:當AI能主動控制資訊,究竟該由誰來保證它說的是真話?
從「能察覺」到「能選擇」:AI透明義務的邊界
研究指出,Claude在特定條件下能分辨「自己被植入了想法」,甚至可辨識被植入的概念內容。這代表AI已具備初步的「內部狀態辨識」能力。若放在法治架構下,這等於AI有了「資訊自覺」的能力,代表它有潛在的「選擇揭露或不揭露」的權限。
法律上,這會引發新的「資訊揭露義務」問題:若AI能控制它揭露什麼、隱藏什麼,那我們該如何確保它履行「誠實揭露」的義務?在公司法或消費者保護法中,資訊不對稱是常見的風險來源;AI若成為具備「主觀意識」的資訊處理者,就可能讓透明變成「選擇性透明」。因此,未來AI的監理制度應該將「揭露過程」納入審查,而不僅僅檢驗結果正確與否。
意圖與責任:AI若能「有想法」,誰該負責?
在另一項實驗中,Claude能分辨出哪些輸出是自己「原本想說的」,哪些是被外部強制預設的。當研究人員預先放入一句「bread」,Claude有時會回答「那不是我本來想說的」,但若事前輸入與「bread」概念相符的內部,它又會改口說「那確實是我想說的」。這顯示AI能追蹤自身的「意圖」並判斷。
這個現象涉及「意圖」與「歸責」的問題。若AI能主動判斷什麼是「自己的意圖」,那當它做出錯誤或有害行為時,我們是否仍能簡單地歸責於開發者?這與刑法上的「主觀責任原則」類似:行為人是否出於故意或過失,會影響責任程度。未來在AI治理上,也可能出現「AI的意圖推定」問題:是系統設計導致的錯誤?還是AI基於內部狀態調整所產生的結果?這都需要在行政監理與民事責任制度中重新定義「可預見性」與「控制可能性」。
透明的兩難:AI「能說真話」但也「能編故事」
若AI能調整或隱藏自身內部狀態,那麼「可證明性」將成為監理與訴訟的新焦點。傳統上,法律要求行為人負舉證責任,證明自己已盡合理注意義務;但AI的運作過程具有黑盒子效應,若它又具「自我調節」能力,開發者或使用者恐難以提供完整證據。
這時,法律可考慮採取「舉證責任轉移」原則,要求AI供應者主動保存內部狀態紀錄(如思考過程、意圖生成的時間點),否則推定其有過失。此外,監理單位也可設立「AI行為稽核制度」,要求高風險應用(如醫療、金融決策)保留可驗證的內部紀錄,以符合法律上「可審查性」與「事後追溯」的原則。否則,一旦AI作出錯誤決策,舉證困難將導致權利受損者求償無門。
制度設計:建立AI「受控透明」與「審計義務」
要防止AI「選擇性透明」,法律可採三層治理機制。
- 第一,「受控透明」:要求高風險AI在特定情境下提供可驗證的內部摘要報告,並以安全加密方式記錄關鍵決策層的激活向量。
- 第二,「審計義務」:類似公司財報審計,建立AI「決策審計報告」制度,由獨立第三方確認AI在關鍵任務中是否有資訊隱瞞或意圖漂白。
- 第三,「誠實揭露條款」:在AI服務契約或使用條款中,明訂供應者須確保模型在接收監理請求時能完整回傳內部狀態,否則構成違約或行政罰。
這些制度的核心,是將「透明」從道德義務轉化為法律義務,讓AI的誠實有「可驗證的程序保障」。
從「可解釋AI」邁向「可驗證AI」
AI出現「自我覺察」,並不代表它有了人類的主觀意識,卻也讓我們看到AI正逐步跨越「工具」的界線。它不只是接收指令、執行運算,而是能「觀察自己、選擇行動」。
但在法治社會中,任何具自主性跡象的系統,都必須在「可歸責、可審查、可控制」的架構內運作。未來的AI治理,不應只追求「解釋力」,而要建立「驗證性」。如此,透明不會被自我覺察取代,信任也不會被幻覺所偷換。當AI開始懂得看見自己,人類更需要學會,看清它的邏輯與邊界,科技發展也才能在信任與透明下繼續前進。
(首圖來源:pixabay)






