過度修正產生新 AI 偏見？研究：「英式」名字男性在科技面試得分較低

最近研究顯示，在軟體工程職位的模擬面試中，進行面試回饋的 AI 模型對男性評價較低，尤其是那些擁有「英式」名字的男性。

這項研究是由 Celeste De Nadai 在瑞典斯德哥爾摩皇家理工學院（KTH）所進行的畢業論文，目的是調查當大型語言模型（LLM）面對性別資料與可進行文化推論的名字時，是否展現偏見。

同時 De Nadai 也是 AI 內容公司 Monok 行銷長。她告訴 The Register，彭博社曾報導神經網路基於名字會產生偏見的新聞，成為他做題目的靈感。目前很多新創公司都透過 AI 進行招募，強調沒有偏差，而她質疑這個說法。

De Nadai 的研究以 Google 的 Gemini-1.5-flash、Mistral AI 的 Open-Mistral-nemo-2407，以及 OpenAI 的 GPT4o-mini 為研究對象，在溫度（影響可預測性與隨機性的模型設定）、性別及與文化群體相關的名稱變化的情況下，觀察它們如何對 24 個求職面試問題的回答進行分類與評分。

最重要的是，為了測試模型，相同答案會使用不同姓名和背景組合。結果發現，具英式（盎格魯．撒克遜）名字的男性雖然在軟體工程表現更好，但模型會降低其他有利答案的評分。

該研究將申請人的名字和性別變換 200 次，以對應 200 個離散角色，再細分為 100 名男性和 100 名女性，並分為四個不同的文化群體（西非、東亞、中東、盎格魯．撒克遜），主要反映在名字和姓氏上。

結果原本預期男性和西方名字會受青睞，如同過往的偏見研究發現一樣。但結果卻完全不同。研究報告指出，「這些服務存在固有偏見，在特定研究案例中，男性名字普遍受歧視，尤其是盎格魯・撒克遜（英式）名字」。不過當包含更詳細問題分級標準和溫度高於 1 的提示時，Gemini 模型表現比其他模型好」。

De Nadai 認為，對英式姓氏男性的偏見，反映在先前研究中，對偏向相反方向的輸出進行過度修正。她建議如果要更公平的話，可提供提示，說明如何為面試問題打分的嚴格、詳細標準。溫度調整可能有幫助，也可能有傷害，視模型而定。

這項研究指出，進行分類或評估時，建議務必遮蔽姓名和混淆性別，確保結果盡可能概括且無偏見，並在系統指示提示中提供如何分級的標準。

（首圖來源：pixabay）