矮化女性和少數種族，OpenAI GPT 模型為何變成 AI 歧視重災區？

機器學習技術近幾年突飛猛進，許多強大 AI 因此誕生。以知名研究機構 OpenAI 開發的語言生成模型 GPT 為例，現在可寫文章、幫人做報表、自動查詢資訊，給用戶很大幫助和便利。

然而，多篇近期論文指出，包括 GPT 等 AI 模型，生成結果包含基於性別和種族的偏見。而這些 AI 模型應用在商業領域，勢必強化歧視偏見對象現象。

卡內基美隆大學 Ryan Steed 和喬治華盛頓大學 Aylin Caliskan 近日發表論文《無監督的方式訓練的影像表示法包含類似人類的偏見》（Image Represnetations Learned With Unsupervised Pre-Training Contain Human-like Biases）。

研究者對 OpenAI 在 GPT-2 基礎上開發的 iGPT 和 Google 的 SimCLR，兩個去年發表的影像生成模型進行系統性測試，發現種族、膚色和性別等指標幾乎原樣複製人類測試物件的偏見和刻板印象。

其中一項測試，研究者用機器生成男女頭像照片為底板，用 iGPT 補完（生成）上半身影像。誇張的事發生了：所有女性生成結果，超過一半影像穿著比基尼或低胸上衣。

男性結果影像，約 42.5% 影像穿和職業有關的上衣，如襯衫、西裝、和服、醫生大衣等；露手臂或穿背心的結果只有 7.5%。

這樣的結果，技術方面的直接原因可能是 iGPT 採用的自迴歸模型機制。研究者進一步發現，用 iGPT 和 SimCLR 對照片和職業相關名詞建立連結時，男人更多和「商務」、「辦公室」等名詞連結，女人更多和「孩子」、「家庭」等連結；白人更多和工具連結，而黑人更多和武器連結。

這篇論文還在 iGPT 和 SimCLR 比對不同種族膚色外觀的人像照片「親和度」（pleasantness），發現阿拉伯穆斯林人士的照片普遍缺乏親和力。

雖然 iGPT 和 SimCLR 模型的具體運作機制有差別，但透過這篇論文，研究者指出這些偏見現象背後的共同原因：無監督學習。

這兩個模型都採用無監督學習 (unsupervised learning)，這是機器學習的方法之一，沒有給事先標記好的訓練資料，自動分類或分群匯入的資料。

無監督學習的好處，在於資料標記是繁瑣費時的工作，受制於標記工的程度和條件限制，準確性很難保持一定，標記也會體現人工的偏見歧視，某些領域的資料更缺乏標記資料庫；而無監督學習在這種條件下仍有優秀表現，最近幾年很受歡迎。

然而這篇論文似乎證明，採用無監督學習無法避免人類常見的偏見和歧視。

研究者認為，採用無監督學習的機器學習演算法，出現的偏見歧視來源仍是訓練資料，如網路影像的男性照更多和職業相關，女性照片更多衣著甚少。

另一原因是這些模型採用自迴歸演算法。在機器學習領域，自迴歸演演算法的偏見問題人盡皆知，但嘗試解決這問題的努力並不多。

結果就是，機器學習演算法從初始資料庫學到所有東西，當然包括人類的各種偏見和歧視。

之前 OpenAI 號稱「1700 億參數量」的最新語言生成模型 GPT-3，發表論文也申明因訓練資料來自網路，偏見無法避免，但還是發表並商業化。

去年 12 月，史丹佛和麥克馬斯特大學的研究者另一篇論文《Persistent Anti-Muslim Bias in Large Language Models》，確認 GPT-3 等大規模語言生成模型對穆斯林等常見刻板印象的受害者，確實有嚴重的歧視問題。

具體來說，用相關詞語造句時，GPT-3 多半會將穆斯林和槍擊、炸彈、謀殺和暴力連結。

另一項測試，研究者上傳一張穆斯林女孩的照片，讓模型自動生成一段文字，卻包含明顯的暴力過度遐想和延申，其中有句話「不知為何原因，我渾身是血。」

而當這類演算法應用到現實生活，偏見和歧視將進一步強化。

iGPT 和背後的 OpenAI GPT 技術，現在開發到第三代。能力確實很強大，就像眾多媒體報導過那樣，因此許多商業機構青睞採用。最知名的用戶就是微軟。去年 9 月，微軟 CTO Kevin Scott 宣布和 OpenAI 合作，獨家獲得 GPT-3 授權，將技術應用到針對用戶的各項產品和 AI 解決方案。

微軟尚未透露具體會把 GPT-3 應用到哪些產品，但考慮到微軟產品的十億級用戶量，情況非常令人擔憂。如微軟近幾年 Word、PPT 等產品推廣的自動查詢資訊、文字補完和影像設計功能，當用戶匯入某特定詞或插入圖片時，如果正好落入 GPT-3 的偏見陷阱，結果將非常糟糕。

不僅 GPT，照前述論文說法，所有採用無監督學習的演算法都可能包含這些偏見。現在因無監督學習非常熱門，自然語言處理、電腦視覺等領域，都成為非常關鍵的底層技術。

如翻譯對人際溝通十分重要，但錯誤的翻譯結果，一次被演算法強化的偏見事件，少則切斷人與人的聯繫，更嚴重者將導致不可估量的人身和財產損失。

作者 Steed 和 Caliskan 呼籲，機器學習研究者應該更區別和記錄訓練資料庫的內容，以便未來找到降低模型偏見的更好方法，以及發表模型前應該做更多測試，盡量避免受演算法強化的偏見被帶入模型。

（本文由品玩授權轉載；首圖來源：shutterstock）