大型 AI 模型成為企業的核心資產,它們的角色已從單純的資料處理工具,進化為具備自主決策能力的系統。
然而,這也帶來了全新的風險。AI可能成為較難以察覺的資料外洩管道。近期研究指出,攻擊者可能掌控伺服器,利用隱碼術(Steganography)將珍貴的模型權重(Model Weights)隱藏在看似平凡的文字回覆中。
從防範資料外洩,到監控模型行為
現有的法律(如GDPR)主要規範個人資料的蒐集與使用,但當威脅演變成模型權重外洩時,現行法規就顯得捉襟見肘。模型權重如同AI的大腦設計圖,一旦外洩,等同於公司的核心技術被完整複製。
研究發現,攻擊者能利用LLM推論過程中的不確定性,將敏感資訊嵌入輸出文字中。治理重點必須從事後追究,轉向事前設計。例如,透過建立可驗證的推論機制,檢查AI的運作是否異常,能將外洩資訊量降至0.5%以下。
法規更可進一步思考,是否應將模型權重視為獨立的受保護對象,納入商業機密法或專門的AI法規中,新增針對「推論行為異常」的法律負擔。如果推論服務供應商未能採取,如本研究提出的「低成本驗證機制」來檢測模型行為是否異常,則可能需承擔過失責任。透過這種法律與技術的結合,將能保障推論提供者的資產安全,各方在防範資產外洩時應盡的監督義務也將更為明確。
事前設計的防禦策略,從源頭封鎖內鬼通道
這項研究最核心的貢獻在於,提供可以實際執行的檢測框架,能精確區分LLM 推論中正常的隨機性與可疑的異常行為。透過這種驗證機制,推論供應商能以極低的額外成本,大幅減緩攻擊者的外洩速度,甚至讓對方為了竊取模型權重而必須面臨200倍以上的效率損耗。
這種事前設計的邏輯也提醒了監理機構,在未來的AI安全評估中,應該強制要求廠商在產品上線前,就必須具備偵測與攔截隱性通訊管道的能力。
當 AI 代理人互相溝通:責任該算誰的?
在多代理AI(Multi-agent AI)的環境下,不同模型之間會頻繁互動。如果其中一個AI在對話時,不小心把模型權重或機密資訊傳給了另一個AI,最終導致資訊流向外部,這時法律責任該由誰承擔?
現行的監理方式,多半是追蹤看得見的資料流,但在隱碼術的保護下,這些資訊變得完全不可見且無法追蹤。當AI本身就可能成為內鬼的通道時,我們必須重新定義高風險AI的標準。開發者、伺服器平台與使用者,在監控推論行為時,都應負起各自責任。
升級治理架構:打造可驗證的 AI 系統
為了防止AI成為資料外洩的跳板,未來的治理架構必須升級。研究提出了一種驗證框架,能在不增加過多開發成本的前提下,偵測推論過程中的惡意行為。對企業來說,這代表必須將推論驗證納入標準資安流程,確保AI輸出的每一段話都經過檢測,這能讓攻擊者的難度提升200倍以上。
我們對AI透明度的要求必須改變,我們要知道AI是用什麼資料訓練的,更要能驗證它的行為是否合法。將模型行為納入監管,並建立跨產業的推論驗證標準,已成為AI治理的核心。唯有技術與法律同步升級,才能確保AI在提升效率的同時,不會變成威脅國家或企業安全的隱形漏洞。
(首圖來源:AI生成)






