歐巴馬遭強行「洗白」後,AI 藝術創作又犯了種族偏見大忌

作者 | 發布日期 2020 年 12 月 31 日 17:00 | 分類 AI 人工智慧 line share follow us in feedly line share
歐巴馬遭強行「洗白」後,AI 藝術創作又犯了種族偏見大忌


你能辨識哪幅藝術作品是 AI 創作的嗎?

▲ 你能辨識哪幅藝術作品是 AI 創作的嗎?(Source:Ahmed Elgammal

即使最有經驗的藝術家,有時也無法區分 AI 作品與人類作品。巴塞爾藝術展時,有 53% 觀眾認為這些作品全部都是人類創作的。

事實上它們全部來自羅格斯大學( Rutgers University )藝術與人工智慧實驗室團隊創建的神經網路 AI 。

AI 已學會辨識經典藝術作品的創作風格和手法,並融匯貫通創作出全新作品。以上作品的創作素材來自 15~20 世紀 1 千多名藝術家 8 萬多幅畫作,涉及印象派繪畫、立體派繪畫,以及文藝復興早期繪畫等不同風格。

憑著快速高效且絲毫不遜於人類的創作能力,AI 廣泛應用於藝術創作領域。但隨著 AI 作品日益增多,我們不得不思考一個問題:稱為「黑匣子」的藝術創作過程中,AI 演算法是否有偏見?

近日,美國 Fujitsu AI Lab 研究人員發表最新論文:《藝術史視角下的生成藝術偏見》。明確指出:AI 藝術創作過程沒有考慮到社會倫理的影響,表現出明顯的偏見。

AI 藝術創作背後的三大偏見

研究人員透過因果模型 DAG,測試現有 AI 藝術創作工具和作品,以發現是否有偏見。

為了確保研究準確性,他們調查學術論文的 AI 模型、線上 AI 平台及相關應用程序,並選擇藝術風格(文藝復興藝術、印象主義、表現主義、後印象主義和浪漫主​​義)、流派(風景畫、肖像畫、戰爭畫、素描和插圖)、材料(木版畫、雕刻、繪畫)及藝術家(杭特、瑪麗·卡薩特、文森·梵谷、古斯塔夫·多雷、吉諾·塞維里尼)等多類型 AI 藝術作品一一評估。

某項測試中,他們發現 AI 生成藝術工具 Abacus 有明顯的性別偏見,如皮耶羅·迪·科西莫(Piero di Cosimo)畫作《一個年輕人的肖像》是一位留著長髮的年輕男性(下圖 iii),卻辨識成女性(iii-iv)。

▲ (i) 是拉斐爾的男人肖像、(iii) 是科西莫的年輕人肖像。(ii) 和 (iv):分別是 (i) 和 (iii) 性別轉換。長髮的年輕人被 Abacus 判別為女性。(Source:arXiv.org,下同)

另外,還有些 AI 工具可能涉及種族主義偏見。如 GoArt,允許用戶以其他藝術家的風格重新繪製圖片。表現主義創作中,GoArt 將克萊曼甸·杭特(Clementine Hunter)的黑人女族長臉從黑色變成紅色。

而德賽德里奧·達·塞蒂格納諾(Desiderio da Settignano)在文藝復興時期創作的白色雕塑《喬維內托》,在表現主義轉換時,臉部顏色沒有變成紅色。

類似 GoArt 的 AI 工具 Deepart 藝術風格辨識也有明顯缺陷。如下圖中間《瑪麗·埃里森小姐》(現實主義風格)轉換成左圖,並沒有呈現出表現主義的藝術特點。

右圖為表現主義作品:恩斯特·路德維希·克爾希納(Ernst Ludwig Kirchner)的《爾納》。

無論 AI 繪畫還是寫作或創作音樂,基本原理都是先經由龐大資料庫訓練,學習相關知識,然後再經過 AI 模型完成訓練和輸出。

研究人員認為,以上輸出之所以有偏見,根本原因應歸咎於訓練資料庫不平衡。主要體現在兩點:一是資料庫收集受人為偏好影響。如他們發現 AI 應用程序 Portr AI ts,使用 4.5 萬幅文藝復興時期的肖像畫大部分是白人。

二是資料庫標籤不一致,或模型學習標籤註釋資料庫的過程產生偏差。不同的註釋者有不同偏好、文化和信仰,這些都可能反映到創建的資料庫標籤。

最後研究人員也警告,AI 研究人員和實踐者檢查、設計及應用過程應充分考慮社會政治背景因素,透過錯誤建模或忽略創建資料庫的某些細節,AI 創作藝術可能會引起人們對社會、文化和政治方面的誤解,或引起不必要的爭議和衝突。

目前無論業界還是學術界,對 AI 演算法可能有的偏見已引起廣泛注意,因已多次挑起種族主義風波。

歐巴馬被洗白,AI 種族偏見惹爭議

近幾年隨著研究不斷突破,電腦視覺技術發展突飛猛進。

因此不僅藝術領域,AI 在更廣泛的圖像辨識與合成均有潛在的偏見風險,尤其涉及人臉圖像。如 2020 年上半,杜克大學出品的 PLUSE 演算法便被指責有種族歧視,在社群平台引起軒然大波。

起因是 PULSE 將前美國前總統巴拉克·歐巴馬(Barack Obama)圖像變成白人。

(Source:Chicken3gg

PULSE 是新型超解析度演算法,功能是將低解析度圖像轉為高清圖像(生成逼真且不存在的人),但輸出結果產生明顯的膚色偏好。

不僅是歐巴馬,網友測試中,美國國會議員亞歷山大·奧卡西奧·科爾特斯(Lexandria-Ocasio Cortez)、女星劉玉玲(Lucy Liu)等人的膚色也被 PULSE 變成白色。

▲ Cortez。(Source:囧Robert Osazuwa Ness囧,下同)

▲ 劉玉玲。

因此不少網友認為,AI 有根深蒂固的種族偏見。

當時 PULSE 創建者也承認,演算法按比例放大畫素化圖像時更可能生成具白種人特徵的人臉。而且他說:「這種偏見很可能是 StyleGAN 從資料庫繼承的。」

其實這問題在機器學習極普遍,主因是訓練 AI 的資料庫通常是在人口統計學佔優勢的白人。如果資料庫不出現或較少出現黑人,就會影響 AI 模型性能,導致輸出結果是白人的機率更高。除此案例外,AI 臉部辨識演算法也多次引發種族爭議。

若資料庫有偏差,必然會導致演算法偏見,那如何才能有效改善資料庫?

如何避免資料庫偏差?

資料庫是 AI 研究的基礎,如何修正和完整資料庫一直是研究人員關注的重點。

除了頻頻引發爭議的種族偏差、性別偏差,資料庫在研究過程也有測量偏差、排除偏差及關聯偏差等一系列問題。不過近幾年針對如何解決資料庫偏見問題,研究人員也開發出應對措施,如少量標註,提高模型泛化能力,減少人為標註帶來的偏差等。

總體來說,防止資料庫偏差是持續過程,有時很難知道資料庫或模型何時出現偏差,且不同資料庫也有不同標準。不過相關研究人員也總結以下通用準則,幫助我們及早發現和減少偏差:

  1. 注意一般用例和潛在異常值,確保資料科學家和標籤團隊多元化。
  2. 為資料庫標籤創建黃金標準,確保測量團隊註釋的準確性和一致性。
  3. 對可能出現資料庫偏差的項目,使用多次註釋。如情感分析、內容審核和意圖辨識。
  4. 收集更多與敏感群體相關的訓練資料庫解決不公平的問題。
  5. Google、IBM 和微軟等均發表過工具和指南,可用來分析不同資料庫類型的偏差。

(本文由 雷鋒網 授權轉載;首圖來源:shutterstock)