台大團隊發表 AI 概念抹除技術，教模型避免暴力與侵權

為避免生成式 AI 帶來侵權與倫理等挑戰，台灣大學電機系教授王鈺強團隊推出「概念抹除」技術Receler，可在不重新訓練整個生成式模型前提下，精準切斷模型對特定高風險概念的聯想與表現能力，如血腥暴力、深偽換臉、特定藝術家或品牌風格等。

在國科會補助下，王鈺強團隊推出面向生成式模型的概念抹除（Concept Erasing）技術Receler（Reliable Concept Erasing via Lightweight Erasers），研究成果在2024年底發表於歐洲計算機視覺國際研討會。

王鈺強表示，生成式AI雖然便利，但也帶來一些疑慮，如ChatGPT可用來生成吉卜力風格的影像，若未事先取得授權，可能涉及侵權。另外，深偽（Deepfake）技術可以將明星或政治人物換臉，曾被用於生成色情內容等。

王鈺強說明，面對這些爭議，只靠關鍵字和人工審核，往往出現漏網或誤攔情況，在不重新蒐集資料跟重新訓練AI模型之下，研究團隊提出概念橡皮擦（Concept Eraser），結合對抗性機器學習（Adversarial Learning）技術以及具交叉注意力機制（Cross-Attention），能精準抹除高風險概念，保留原始AI模型創作能力。

王鈺強舉例，生成式模型在使用Receler技術避免「暴力」概念後，當輸入與暴力相關的直白或隱喻指令時，模型將不會輸出與暴力相關的圖片，若抹除「吉卜力風格」後，輸入相關描述，系統就會改以中性、不侵權的風格呈現，同時不犧牲多樣性與細節品質。

國科會工程技術研究發展處長洪樂文表示，生成式AI工具若未特別防範，有時候難以避免會生出爭議內容，王鈺強團隊提出Receler，能精確切斷連結風險的內容，對AI發展至關重要，這項技術在網路上的開源模型受到廣泛使用，具有貢獻與影響力。

（作者：趙敏雅；首圖來源：國科會）