人臉辨識準確率黑人比白人差很多,主要受限於資料庫與光影呈現問題

作者 | 發布日期 2018 年 02 月 12 日 13:17 | 分類 AI 人工智慧 , Big Data , 生物科技 follow us in feedly

紐約時報 2 月 9 日發表了一篇文章,指出如今非常熱門的 AI 應用人臉辨識,不同種族的準確率差異甚大。其中,黑人女性的錯誤率高達 21%~35%,而白人男性的錯誤率則低於 1%。



文章參考 MIT 媒體實驗室(MIT Media Lab)研究員 Joy Buolamwini 與微軟科學家 Timnit Gebru 合作的一篇研究論文《性別圖譜:商用性別分類技術的種族準確率差異》(Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification)的資料。

論文作者選擇了微軟、IBM 和曠視(Face++)3 家人臉辨識 API,測試性別判定的人臉辨識功能。以下為兩組準確率差異最大的人群。

▲ 一組 385 張照片中,白人男性的辨識誤差最高只有 1%。(Source:Joy Buolamwini / M.I.T. Media Lab)

▲ 一組 271 張照片中,膚色較黑的女性辨識誤差率高達 35%。(Source:Joy Buolamwini / M.I.T. Media Lab)

論文研究使用了自行收集的一組名為 Pilot Parliaments Benchmark(PPB)資料庫測試,包含 1,270 張人臉,分別來自 3 個非洲國家和 3 個歐洲國家。

判斷照片人物性別方面,以下是論文作者測試後得到的關鍵發現:

  • 所有分類器在辨識男性人臉的表現要優於女性人臉(8.1%~20.6% 錯誤差別)。
  • 所有分類器在膚色較白的人臉表現優於膚色較深的人臉(11.8%~19.2% 錯誤差別)。
  • 所有分類器在膚色較深的女性人臉表現最差(錯誤率 20.8%~34.7%)。
  • 微軟和 IBM 的分類器在淺膚色男性人臉表現最好(錯誤率為 0% 及 0.3%)。
  • Face++ 的分類器在膚色較深的男性人臉表現最好(錯誤率 0.7%)。
  • 最差組與最好組差距高達 34.4%。

需要指出的是,3 家人臉辨識 API 都沒有很詳細解釋使用的分類法,也沒有提及使用的訓練資料。

不過,微軟在服務中表明「不一定每次都有 100% 準確率」;Face++ 則特別在使用條款表明調校確性不予保證。

關於可能的原因,紐時表示,目前人工智慧是資料為王,資料好壞和多寡會影響 AI 的智慧程度。如果訓練 AI 模型的資料集中,白人男性的資料多於黑人女性,那麼系統對後者的辨識能力就會不如前者。

現有的資料集中這現象,比如根據另一項研究發現,一個廣泛使用的人臉辨識資料集中,75% 都是男性,同時 80% 是白人。

曠視回覆表示,深色人種資料集相對難獲得,所以會差一些;另外,使用 RGB 鏡頭人臉辨識時,深膚色人的特徵較難找,特別是在光線不足條件下,這也是另一個原因。

IBM 回應:論文版本太老,新版已改善

針對 Buolamwini 和 Gebru 的論文發現,2 月 6 日,IBM 在自家 IBM Research 部落格發表了一篇回應文

文章並未否認論文的發現,而是指出,IBM 的 Watson Visual Recognition 服務一直在持續改善,最新發現將於 2 月 23 日推出的新版服務,使用比論文更廣泛的資料集,擁有強大的辨識能力,比論文的錯誤率有近 10 倍下降。

文章表示 IBM Research 用類似論文方法進行實驗,發現如下:

結果顯示整體錯誤率都很低,雖然膚色較黑的女性錯誤率仍是所有人群最高,但較論文結果有很大下降。

曠視回應:深膚色人種辨識錯誤率高是普遍現象,商用產品會改善

針對這篇論文向曠視詢問,對方給予了非常詳細的解答。曠視首先對論文的研究方法表示認可,但同時指出研究所用的線上 API 是較舊版本,商用產品不會出現這類問題;且此類問題是業界普遍都有,不僅限於測試這 3 家。原因主要有兩點,一是缺乏深色人種資料集,二是深色人種人臉特徵較難擷取。

以下為回應全文:

我們相信文章(論文)立意不是針對哪一家的技術,基本是不吹不黑的中立態度,而且從文章的測試方法來看還是比對科學的,但是文章中所用的「PPB」(Pilot Parliaments Benchmark)資料集在 GitHub 的發表位址已經失效,所以我們目前無法自行偵測以驗證文章的結論。

在集成到 Face++ API 中的時候,曠視研究院有針對不同人種進行偵測、辨識等測試。但是就目前國際範圍內的研究水平來說,不管是在學界還是產業界,對於膚色人種的辨識表現都沒有對「膚色較淺」(參照文章用詞)人種優秀,從此文的測試結果中也可以看出,微軟、IBM 和 Face++ 在膚色較深人種辨識的表現中(尤其是膚色較深女性)機器的誤實率會更高。

一方面從人類基因和人臉辨識技術角度來說,皮膚的色彩越深對於基於 RGB 可見光的人臉辨識的難度就越大,因為機器在進行人臉偵測、分析和辨識的過程中需要對人臉影像進行前處理和特徵擷取,所以皮膚色彩越深,臉部的特徵資訊就越難擷取,尤其是在一些暗光情況下,更加難以偵測和區分。另一方面,人臉辨識很大程度上依賴於資料訓練,而在整個工業中黑色人種的可訓練資料量較少,所以辨識的結果在某些程度上不盡人意,所以文章呈現的測試結果是工業普遍存在的現象。文章中只是選擇了 3 家工業代表來進行了測試,如果樣本量足夠大,那可能還會得出其他的結論。

不過測試結果也顯示,Face++ 對於黑人男性的辨識錯誤率(0.7%)是最低的,且在 PPB 的南非子測試集中,Face++ 辨識膚色較淺人種的表現是完美無瑕的,這些其實也間接說明 Face++ 的人臉辨識能力是處於全球領先的地位。

文章作者提出了一個很好的問題,但文章中測試的 API 線上版本和我們為用戶提供的商業版本無關,用戶在業務使用中不會有任何影響。

當然我們也相信工業內都在針對人種辨識最佳化做著各種努力。而就 Face++ 來講,未來研究院會從幾個角度去改善目前的狀況,如增加訓練資料,針對不同人種進行專門訓練,另外是從演演算法層面最佳化現在的流程,提升對不同人種的辨識效能,此外,曠視也在加大 3D 感知的研發力度,將三維特徵資訊融合到應用中彌補二維資訊的不足使模型更加強健。

AI 真有歧視嗎?

根據紐時報導,論文作者之一黑人女性 Buolamwini 做這項研究之前,曾遇到過人臉辨識無法辨識她的臉,只有在她戴上一張白色面具時才行,因而引發了她開啟這項研究。很明顯,這項研究嘗試探討 AI 時代是否有社會不公甚至種族歧視的問題。

種族歧視是非常敏感的話題,許多事情只要沾上邊就會引發強烈反彈。在人臉辨識這塊,無論論文作者的研究,還是廠商的實驗,都明確發現女性深色人種辨識誤差率更高。但這就能代表 AI 歧視嗎?

顯然並不是,細究其中原因,之所以膚色較深女性較難辨識,除了天然人臉特徵更難擷取,還有可供訓練的資料集較少。從市場角度來說,IBM 和微軟的服務在白人男性表現最好,是因為其市場主要在歐美,白人占多數;曠視的主要市場在東亞和東南亞,因此黃種人表現會好很多,這跟歧視沒有關係,而是市場導向的技術研發。

話又說回來,這篇論文確實顯示,AI 的智慧性跟訓練資料有很大關係,因此設計 AI 應用時,我們應盡量使用廣泛且代表性強的資料,照顧不同人群;同時要積極對公眾解釋 AI 的達成原理。

最後,這件事表明,鼓勵新技術的發展惠及更多少數族裔需要更多人重視,不僅是人臉辨識,還有語言、文化等各方面。

(本文由 雷鋒網 授權轉載;首圖來源:論文