台大團隊發表 AI 概念抹除技術,教模型避免暴力與侵權

作者 | 發布日期 2025 年 10 月 30 日 8:50 | 分類 AI 人工智慧 , 網路 line share Linkedin share follow us in feedly line share
Loading...
台大團隊發表 AI 概念抹除技術,教模型避免暴力與侵權

為避免生成式 AI 帶來侵權與倫理等挑戰,台灣大學電機系教授王鈺強團隊推出「概念抹除」技術Receler,可在不重新訓練整個生成式模型前提下,精準切斷模型對特定高風險概念的聯想與表現能力,如血腥暴力、深偽換臉、特定藝術家或品牌風格等。

在國科會補助下,王鈺強團隊推出面向生成式模型的概念抹除(Concept Erasing)技術Receler(Reliable Concept Erasing via Lightweight Erasers),研究成果在2024年底發表於歐洲計算機視覺國際研討會。

王鈺強表示,生成式AI雖然便利,但也帶來一些疑慮,如ChatGPT可用來生成吉卜力風格的影像,若未事先取得授權,可能涉及侵權。另外,深偽(Deepfake)技術可以將明星或政治人物換臉,曾被用於生成色情內容等。

王鈺強說明,面對這些爭議,只靠關鍵字和人工審核,往往出現漏網或誤攔情況,在不重新蒐集資料跟重新訓練AI模型之下,研究團隊提出概念橡皮擦(Concept Eraser),結合對抗性機器學習 (Adversarial Learning) 技術以及具交叉注意力機制(Cross-Attention),能精準抹除高風險概念,保留原始AI模型創作能力。

王鈺強舉例,生成式模型在使用Receler技術避免「暴力」概念後,當輸入與暴力相關的直白或隱喻指令時,模型將不會輸出與暴力相關的圖片,若抹除「吉卜力風格」後,輸入相關描述,系統就會改以中性、不侵權的風格呈現,同時不犧牲多樣性與細節品質。

國科會工程技術研究發展處長洪樂文表示,生成式AI工具若未特別防範,有時候難以避免會生出爭議內容,王鈺強團隊提出Receler,能精確切斷連結風險的內容,對AI發展至關重要,這項技術在網路上的開源模型受到廣泛使用,具有貢獻與影響力。

(作者:趙敏雅;首圖來源:國科會

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》