微軟刪除全球最大臉部辨識資料庫 MS-Celeb-1M,內含 10 萬個名人、1 千萬張照片

作者 | 發布日期 2019 年 06 月 13 日 8:30 | 分類 AI 人工智慧 , Microsoft , 網路 line share follow us in feedly line share
微軟刪除全球最大臉部辨識資料庫 MS-Celeb-1M,內含 10 萬個名人、1 千萬張照片


臉部辨識技術發展到今天,不僅在技術發展層面受關注,實際上,在政策和用戶隱私層面,引起的爭議越來越多,某些區域或領域也頗不受歡迎;比如說,2019 年 5 月,舊金山市對人臉辨識技術發出禁令,禁止在政府機關和執法機關使用,成為全球首個對臉部辨識技術發禁令的城市。

近日,微軟悄然刪除 2016 年發表的臉部辨識資料庫 MS-Celeb-1M──此資料庫是全球最大的開放臉部辨識資料庫。

微軟為什麼要發表 MS-Celeb-1M 資料庫?

2016 年 8 月,微軟官網公布題為《MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition》的論文,作者包括微軟研究院 Yandong Guo(郭彥東,已離開微軟加入小鵬汽車)、Lei Zhang(張磊)、Yuxiao Hu、Xiaodong He、Jianfeng Gao 等人。

(Source:微軟

論文中微軟介紹名為 MS-Celeb-1M 的臉部辨識挑戰賽,參賽者需要根據微軟提供的數據集為訓練數據開發自己的圖像辨識系統,以便臉部辨識 100 萬個名人。

挑戰賽同時,微軟也發表針對公眾開放下載的大規模臉部辨識資料集 MS-Celeb-1M,第一版包含 10 萬個名人(根據他們的受歡迎程度,從上述 100 萬個名人選出)的 1 千萬張臉部照片,供研究者開發自己的臉部辨識技術──微軟宣稱,這些照片來自人們常用的搜尋引擎,也就是公開管道。

以 Lady Gaga 為例,看一下資料庫的相關照片:

(Source:微軟

微軟宣稱,此資料庫是全球最大的公開臉部辨識資料庫。

微軟技術與研究院首席研究員/研究經理張磊(即上述論文作者的 Lei Zhang)博士曾表示,MS-Celeb-1M 的目標是辨識百萬人臉,是電腦視覺最大規模的分類問題,且其中一個人物對應一個 entity,綁定知識庫,知識庫提供每個人的職業、性別等豐富資訊,解決人物重名的問題,可從辨識達到認知。

基於這個資料庫,微軟舉行了 MS-Celeb-1M 百萬名人辨識競賽,業界公認為臉部辨識的年度「世界杯」。2017 年的微軟百萬名人辨識競賽,Panasonic─新加坡國立大學合作奪得第一,CIGIT(中科院重慶綠色智慧技術研究院)和中科院合作隊伍位列第二,美國東北大學位列第三。

雖然在微軟的認知中,最開始這個資料庫是針對學術界,但後來這個被許多業界同行使用。

根據相關的引文資料,MS-Celeb-1M 資料庫已被多商業機構使用,比如說 IBM、松下電氣、阿里巴巴、輝達、日立、商湯科技、曠視科技等,甚至有消息稱,也有相關軍事研究人員採用此資料庫訓練臉部辨識系統。

微軟刪除了,但它儲存在全世界的硬碟裡

然而,伴隨著臉部辨識技術的發展,人們對相關隱私的關注和擔憂越來越增加,也有人認為微軟資料庫涉嫌侵犯隱私,比如說德國柏林藝術家和技術專家 Adam Harvey,他在自己的 Megapixel 計畫記載了包括 MS-Celeb-1M 等資料庫詳細資訊及使用者。

Adam Harvey 認為,微軟用 Celebrity 一詞指的是那些在網路工作並在數位世界具知名度的人,不僅是 Lady Gaga、Steve Jobs 這類名人。

(Source:微軟

比如說,有媒體核對 MS-Celeb-1M 資料庫的臉部後發現,MS-Celeb-1M 的確包含不少名人照片,比如 Lady Gaga、Steve Jobs 等,但是也包含一些媒體人的資料,例如《連線》雜誌負責報導網路犯罪、網路安全、隱私等問題的資深記者 Kim Zetter。

針對微軟涉嫌侵犯隱私問題,英國《金融時報》也設法聯繫了收錄在 MS-Celeb-1M 資料庫的當事人,某些當事人甚至根本不知道自己的照片被收錄──比如科技作家 Adam Greenfield;他接受採訪時表示,自己絕不是公眾人士,無法放棄自己的隱私權。

也就是說,微軟資料庫使用的照片,並沒有徵得當事人同意,即使他們是名人。

當然,微軟也意識到這個問題,目前已刪除 MS-Celeb-1M 資料庫;回應英國《金融時報》時微軟表示:

這個網站原本是用於學術目的,是由微軟前員工營運。目前該員工已離開微軟,我們也移除了它。

值得一提的是,微軟刪除了 MS-Celeb-1M 資料庫,另外兩個學術單位也刪除旗下的類似相關資料庫:杜克大學研究人員建造的 Duke MTMC 監控資料庫和史丹佛大學的 Brainwash 資料庫。

就目前的情況來看,微軟用來介紹 MS-Celeb-1M 計畫的網站還在,但資料庫本身不能下載;然而搜索發現,相關資料庫資源依然可從其他網站下載。更重要的是,既然曾被公開下載,MS-Celeb-1M 已儲存在不少企業或機構的硬碟,用作各類用途,照片當事人還是無法左右。

正如 Adam Harvey 所言:

一旦你發表了,人們下載了,那資料就會儲存於全世界的硬碟裡。

(本文由 雷鋒網 授權轉載;首圖來源:微軟