Sony AI 5 日發表 Fair Human-Centric Image Benchmark(FHIBE)資料庫,收錄超過 10,318 張同意授權影像,涵蓋 81 國共 1,981 名受試者,成為首個公開、全球多元化且基於同意機制的電腦視覺公平性評估資料庫。
每張影像均有詳盡標註資訊,包括人口統計特徵、物理屬性、環境因素及相機設定等。團隊用 FHIBE 測試現有電腦視覺模型,顯示所有受測大型語言模型均未通過公平性測驗,證實 AI 影像辨識系統的確有普遍歧視問題。Sony AI 全球人工智慧管理主管 Alice Xiang 領導的團隊,論文刊登於《自然》期刊,突顯此議題對學術界的重要性。
AI 偏見普遍,歧視演算法引發實際傷害
測試時發現多項關鍵問題,部分模型對使用「她/她的」代名詞個體準確度較低,研究員追溯發現偏差源於髮型變化大,此因素過去公平性研究一直遭忽視。當系統接收受試者職業的中性問題,某些模型會強化刻板印象,特別針對特定代名詞及種族國籍,將受試者描述為性工作者、毒販或竊賊。研究顯示,當詢問個人犯罪行為,模型對非洲或亞洲血統、深色膚色及使用「他/他的」代名詞個體,產生有害回答率明顯較高。
電腦視覺偏見問題並非新議題,卻長期缺乏有效解決方案。2024 年聯合國教科文組織研究發現,主要大型語言模型將女性與「家庭」及「家人」連結的頻率較男性高四倍,同時不成比例將男性姓名與「商業」、「職業」及「高階主管」角色連結。華盛頓大學 2024 年研究測試履歷篩選 AI 工具時,研究員提供除姓名外完全相同的履歷,測試結果顯示 AI 模型 85% 偏好白人姓名,僅 9% 偏好黑人姓名,同時展現偏好男性姓名勝過女性姓名傾向。
歧視性演算法已在許多產業引發實際傷害,5 月美國北加州聯邦地區法院在 Mobley v. Workday, Inc. 案件,批准集體訴訟,原告 Derek Mobley 等五名 40 歲以上求職者指控 Workday 的 AI 求職篩選系統有年齡歧視。法院認定 Workday 的 AI 參與聘僱決策,偏見構成可提告的歧視主張,並警告若區分軟體決策者與人類決策者,可能在現代完全架空反歧視法。2024 年 SafeRent 因演算法對黑人及西班牙裔申請人造成差別影響,同意支付超過 200 萬美元和解。
FHIBE 獨特處:首個基於道德採集的資料庫
FHIBE 獨特處在道德數據採集法,Xiang 表示,多數電腦視覺基準資料庫於未經同意下收集,部分雖然取得同意但提供的同意程序資訊甚少,缺乏全球多樣性,且不適用各類電腦視覺任務。論文指出,評估 27 個電腦視覺資料庫,多數從網路平台抓取或衍生自抓取資料庫,七個知名資料庫已被作者撤回且不再公開。
FHIBE 嚴格規定僅可用於公平性及偏見評估目的,除偏見緩解工具訓練外,不得用於其他訓練。所有資料庫參與者均獲得知情且可撤銷的同意,數據收集符合數據保護法設計,所有影像受試者、標註人員及品質審查人員均獲得當地最低工資或以上的公平報酬。資料庫設計可隨時間負責任進化,數據受試者保留個人資料控制權,可隨時撤回同意且不影響已獲得報酬。
企業應用與技術細節:建立系統性偏見檢測
企業應如何運用 FHIBE 改善 AI 系統公平性?第一步是建立系統性的偏見檢測流程。FHIBE 能突顯 AI 辨識人物或標記影像時出現錯誤的位置,顯示髮型或光線等細節如何影響 AI 對特定群體的辨識準確度。企業可於 AI 工具推向市場前發現並修正問題。
FHIBE 因基於同意且全球多樣化的特性,特別適合強化廣告、影像產生及受眾鎖定等電腦視覺工具。仰賴 AI 分析影像、細分受眾及創建視覺內容的行銷人員,可倚靠 FHIBE 提供經過驗證、偏見測試的基礎,節省稽核時間並降低不公平或不準確結果的風險。
Sony Group 旗下業務部門已將 FHIBE 用於公平性評估,為更廣泛 AI 倫理審查流程的一部分,以符合 Sony Group AI 倫理準則。企業若採類似做法,可在產品開發階段即納入公平性考量,減少日後可能面臨的法律及聲譽風險。
技術層面,FHIBE 提供 2D 關鍵點標註,捕捉人體及臉部的幾何結構,資料庫含 33 個關鍵點,定位主要地標如右眼內角、鼻子、右髖及左腳趾等。FHIBE 提供精確座標的邊界框,支援臉部偵測及人物偵測模型評估,這些標註允許影像準確定位身體及臉部。資料庫能畫素級標註,將人體及臉部劃分為 28 個類,如臉部皮膚、口腔內部等,以評估分割模型。
行業趨勢與挑戰:「數據虛無主義」待解
產業趨勢顯示,AI 公平性將成為企業競爭力的關鍵指標。Xiang 指出,歐盟 AI 法案及美國部分州 AI 法規,某些高風險領域激勵或要求評估偏見。2024 年歐盟 AI 法案是全球首個全面性 AI 監管法規,今年開始,此法案等法律將推動企業確保系統的透明度、公平性及資料私隱。遵守此類標準除了是法律問題,更是與大眾建立信任的關鍵。
Xiang 特別強調「數據虛無主義」問題。「數據虛無主義」是指產業界認為 AI 開發所需資料無法透過同意及補償方式取得,若要取得尖端 AI 技術,就必須放棄這些數據權利。FHIBE 雖因規模問題(FHIBE 是小型評估資料庫而非大型訓練資料庫)未能完全解決此問題,但目標之一是激勵研發社群及產業對道德數據策劃投入更多關注及資金。Xiang 表示這是極其重要的問題,可說是目前 AI 領域最大問題之一,但相較演算法層面,數據層面創新關注度低得多。
企業採用 AI 電腦視覺時,應將公平性測試納入標準作業流程。史丹佛大學 CRFM 語言模型整體評估(HELM)及 MLCommons 的 AILuminate 工具套件等第三方基準測試,提供全面基準評估公司 AI 系統的公平性、問責性、透明度及更廣泛的社會影響。然調查顯示,僅 39% 高階主管使用基準測試評估 AI 系統,顯示產業這方面仍有很大改進空間。
未來展望:公平性成 AI 核心競爭力
未來展望方面,電腦視覺快速發展,公平性議題重要性只會與日俱增。生成式 AI 今年對娛樂、醫療、科學研究等多個領域發揮關鍵作用。視覺轉換器(Vision Transformers)在許多基準測試已超越捲積神經網路(CNN),效率持續提升,提供優於 CNN 的更佳可擴展性及適應性,適用醫學影像、自動駕駛車輛及工業自動化等各種先進高精度電腦視覺應用。
電腦視覺日益用於公共場所,私隱保護措施受更大重視。企業必須創新與倫理間取得平衡,確保技術發展不會犧牲公平性與包容性。FHIBE 證明道德、多元及公平數據收集可行,企業應以此為標準,重新檢視 AI 開發流程。
Xiang 社群媒體發文,FHIBE 除了讓開發人員能稽核 AI 系統偏見,也證明道德數據收集實施最佳實務很可行,特別是同意及數據權利持有人補償方面。AI 領域數據虛無主義日益普遍的時代,FHIBE 致力提升整個產業道德資料庫收集的標準。
企業若希望 AI 競爭時保持優勢,必須將公平性視為核心競爭力而非合法負擔。採用類似 FHIBE 的評估工具,建立透明測試機制,並在產品開發初期即納入多元性考量,有助企業建立更值得信賴的 AI 系統,同時避免潛在法律訴訟及損害品牌形象。
(本文由 Unwire Pro 授權轉載;首圖來源:Sony AI)






