人臉辨識準確率黑人比白人差很多，主要受限於資料庫與光影呈現問題

紐約時報 2 月 9 日發表了一篇文章，指出如今非常熱門的 AI 應用人臉辨識，不同種族的準確率差異甚大。其中，黑人女性的錯誤率高達 21%~35%，而白人男性的錯誤率則低於 1%。

文章參考 MIT 媒體實驗室（MIT Media Lab）研究員 Joy Buolamwini 與微軟科學家 Timnit Gebru 合作的一篇研究論文《性別圖譜：商用性別分類技術的種族準確率差異》（Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification）的資料。

論文作者選擇了微軟、IBM 和曠視（Face++）3 家人臉辨識 API，測試性別判定的人臉辨識功能。以下為兩組準確率差異最大的人群。

▲ 一組 385 張照片中，白人男性的辨識誤差最高只有 1%。（Source：Joy Buolamwini / M.I.T. Media Lab）

▲ 一組 271 張照片中，膚色較黑的女性辨識誤差率高達 35%。（Source：Joy Buolamwini / M.I.T. Media Lab）

論文研究使用了自行收集的一組名為 Pilot Parliaments Benchmark（PPB）資料庫測試，包含 1,270 張人臉，分別來自 3 個非洲國家和 3 個歐洲國家。

判斷照片人物性別方面，以下是論文作者測試後得到的關鍵發現：

所有分類器在辨識男性人臉的表現要優於女性人臉（8.1%~20.6% 錯誤差別）。
所有分類器在膚色較白的人臉表現優於膚色較深的人臉（11.8%~19.2% 錯誤差別）。
所有分類器在膚色較深的女性人臉表現最差（錯誤率 20.8%~34.7%）。
微軟和 IBM 的分類器在淺膚色男性人臉表現最好（錯誤率為 0% 及 0.3%）。
Face++ 的分類器在膚色較深的男性人臉表現最好（錯誤率 0.7%）。
最差組與最好組差距高達 34.4%。

需要指出的是，3 家人臉辨識 API 都沒有很詳細解釋使用的分類法，也沒有提及使用的訓練資料。

不過，微軟在服務中表明「不一定每次都有 100% 準確率」；Face++ 則特別在使用條款表明調校確性不予保證。

關於可能的原因，紐時表示，目前人工智慧是資料為王，資料好壞和多寡會影響 AI 的智慧程度。如果訓練 AI 模型的資料集中，白人男性的資料多於黑人女性，那麼系統對後者的辨識能力就會不如前者。

現有的資料集中這現象，比如根據另一項研究發現，一個廣泛使用的人臉辨識資料集中，75% 都是男性，同時 80% 是白人。

曠視回覆表示，深色人種資料集相對難獲得，所以會差一些；另外，使用 RGB 鏡頭人臉辨識時，深膚色人的特徵較難找，特別是在光線不足條件下，這也是另一個原因。

IBM 回應：論文版本太老，新版已改善

針對 Buolamwini 和 Gebru 的論文發現，2 月 6 日，IBM 在自家 IBM Research 部落格發表了一篇回應文。

文章並未否認論文的發現，而是指出，IBM 的 Watson Visual Recognition 服務一直在持續改善，最新發現將於 2 月 23 日推出的新版服務，使用比論文更廣泛的資料集，擁有強大的辨識能力，比論文的錯誤率有近 10 倍下降。

文章表示 IBM Research 用類似論文方法進行實驗，發現如下：

結果顯示整體錯誤率都很低，雖然膚色較黑的女性錯誤率仍是所有人群最高，但較論文結果有很大下降。

曠視回應：深膚色人種辨識錯誤率高是普遍現象，商用產品會改善

針對這篇論文向曠視詢問，對方給予了非常詳細的解答。曠視首先對論文的研究方法表示認可，但同時指出研究所用的線上 API 是較舊版本，商用產品不會出現這類問題；且此類問題是業界普遍都有，不僅限於測試這 3 家。原因主要有兩點，一是缺乏深色人種資料集，二是深色人種人臉特徵較難擷取。

以下為回應全文：

我們相信文章（論文）立意不是針對哪一家的技術，基本是不吹不黑的中立態度，而且從文章的測試方法來看還是比對科學的，但是文章中所用的「PPB」（Pilot Parliaments Benchmark）資料集在 GitHub 的發表位址已經失效，所以我們目前無法自行偵測以驗證文章的結論。

在集成到 Face++ API 中的時候，曠視研究院有針對不同人種進行偵測、辨識等測試。但是就目前國際範圍內的研究水平來說，不管是在學界還是產業界，對於膚色人種的辨識表現都沒有對「膚色較淺」（參照文章用詞）人種優秀，從此文的測試結果中也可以看出，微軟、IBM 和 Face++ 在膚色較深人種辨識的表現中（尤其是膚色較深女性）機器的誤實率會更高。

一方面從人類基因和人臉辨識技術角度來說，皮膚的色彩越深對於基於 RGB 可見光的人臉辨識的難度就越大，因為機器在進行人臉偵測、分析和辨識的過程中需要對人臉影像進行前處理和特徵擷取，所以皮膚色彩越深，臉部的特徵資訊就越難擷取，尤其是在一些暗光情況下，更加難以偵測和區分。另一方面，人臉辨識很大程度上依賴於資料訓練，而在整個工業中黑色人種的可訓練資料量較少，所以辨識的結果在某些程度上不盡人意，所以文章呈現的測試結果是工業普遍存在的現象。文章中只是選擇了 3 家工業代表來進行了測試，如果樣本量足夠大，那可能還會得出其他的結論。

不過測試結果也顯示，Face++ 對於黑人男性的辨識錯誤率（0.7%）是最低的，且在 PPB 的南非子測試集中，Face++ 辨識膚色較淺人種的表現是完美無瑕的，這些其實也間接說明 Face++ 的人臉辨識能力是處於全球領先的地位。

文章作者提出了一個很好的問題，但文章中測試的 API 線上版本和我們為用戶提供的商業版本無關，用戶在業務使用中不會有任何影響。

當然我們也相信工業內都在針對人種辨識最佳化做著各種努力。而就 Face++ 來講，未來研究院會從幾個角度去改善目前的狀況，如增加訓練資料，針對不同人種進行專門訓練，另外是從演演算法層面最佳化現在的流程，提升對不同人種的辨識效能，此外，曠視也在加大 3D 感知的研發力度，將三維特徵資訊融合到應用中彌補二維資訊的不足使模型更加強健。