Google 人工智慧倫理團隊前負責人加入新創公司 Hugging Face

作者 | 發布日期 2021 年 08 月 26 日 16:40 | 分類 AI 人工智慧 , Google , 人力資源 line share follow us in feedly line share
Google 人工智慧倫理團隊前負責人加入新創公司 Hugging Face


8 月 25 日 Google Ethical AI 人工智慧倫理研究小組前負責人瑪格麗特·米契爾(Margaret Mitchell)將加入人工智慧新創公司 Hugging Face,幫助企業開發確保演算法公平的工具。她因與他人合著的重要論文引起爭議,今年 2 月被 Google 解僱。

Hugging Face有何吸引力?

Hugging Face總部位於紐約,是聊天機器人新創服務商,專注NLP技術,擁有大型開源社群。尤其Github開源的自然語言處理、預訓練模型庫 Transformers下載超過100萬次,Github有超過24,000個星星。Transformers提供NLP領域大量state-of-art預訓練語言模型結構模型和調用框架。

Transformers最早名稱為pytorch-pretrained-bert,於Google BERT之後推出。顧名思義是基於pytorch對BERT的實現。pytorch框架上手簡單,BERT模型性能卓越,集合兩者優點的pytorch-pretrained-bert不易外吸引大批追隨者和貢獻者。

在社群努力下,GPT、GPT-2、Transformer-XL、XLNET、XLM等模型也相繼引入,家族愈發壯大,更名為pytorch-transformers。

2019年6月Tensorflow2的beta版發表,Huggingface達成TensorFlow 2.0和PyTorch模型深層互相操作,可在TF2.0 / PyTorch框架間隨意遷移模型。之後發表2.0版,更名為transformers。到目前為止,transformers提供超過100種語言32種預訓練語言模型。

Hugging Face維護一儲存庫,人們可在儲存庫共享AI模型並合作。這是開源平台,已有5千多家機構使用,包括Google 、Facebook和微軟。米契爾計劃10月啟動,並先開發工具,確保訓練人工智慧算法的資料庫沒有偏見。目前「教導」模型如何預測或確定的資料庫,通常因原始數據不完整導致AI軟體對女性、少數群體成員還有老年人表現不佳。

米契爾和Hugging Face已建立關係,為確保模型公平性,Hugging Face建議工程師和科學家發表計畫時使用米契爾在Google時開發的「Model Cards」工具評估人工智慧系統,以找出優缺點。Hugging Face首席執行長兼聯合創始人克萊門特·德蘭吉(Clement Delangue)表示,放在Hugging Face的2萬個計畫,約四分之一使用Model Cards工具。

Hugging Face有50名員工和幾位人工智慧倫理專家,但德蘭吉想讓所有員工一起負責這項工作。德蘭吉表示:「我們不想建立輔助人工智慧倫理團隊,而是真正成為公司核心,確保真正融入每個人的工作。米契爾不會建立少數人組成、偶爾提供諮詢的團隊。」

米契爾受訪時表示,用軟體評估人工智慧系統方面,要用非常嚴肅和積極的態度工作。「這對我來說是非常好的機會,幫助模型構建者更理解正在構建的模型危害和風險。 」

米契爾從Google離職後表示,她希望在規模較小的公司工作,這樣可從一開始就將人工智慧倫理納入考量。她說Hugging Face「有很多基本道德價值觀。很明顯,我不必強行插手或改善倫理流程。」

(Source:Margaret Mitchell

米契爾為何被解僱?

米契爾解僱源於Google人工智慧倫理研究團隊動盪。去年Google就解雇團隊另一位聯合負責人蒂姆妮·蓋布魯(Timnit Gebru),原因是她拒絕撤回與米契爾等人共同撰寫的論文,這篇文章涉及批評Google技術。Gebru離職後,身為團隊負責人的米契爾公開強烈批評Google及管理層,指責Google未認真對待人工智慧產品的問題以及解僱Gebru,因Gebru是人工智慧研究領域為數不多的傑出黑人女性。Google表示Gebru已辭職,米契爾違反Google行為準則和安全政策。

Google員工對高層處理此事的方式表示憤慨,今年稍早十多名現任和前任員工及人工智慧學術研究人員的採訪表明,兩年多內Google的人工智慧,處理騷擾、種族主義和性別歧視指控一直有爭議。

這篇論文大致集中攻擊大規模語言模型(如BERT)的消極影響,而BERT模型是Google的王牌AI產品。論文名為《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》。論文基於其他研究人員的工作,參考128篇學術文獻,展示自然語言處理的發展歷史與大型語言模型的四大危害,呼籲更深入研究語言模型。

四大危害包括:

  1. 訓練大型AI模型會消耗大量能源(訓練一個BERT模型約產生1,438磅二氧化碳,相當於紐約與舊金山一次往返航班產生的碳排量)。
  2. 大型語言模型基於大量文本訓練,無法避免偏見存在,包括涉及種族歧視、性別歧視色彩與其他虐待性語言。
  3. 大型語言模型無法理解語言,但公司由於利益關係會增加投資,帶來機會成本。
  4. 由於大型語言模型非常擅長模仿真實人類語言,所以很容易用來欺騙人類。

Google許多基礎研究遙遙領先,帶來大型語言模型爆炸式增長。如果真如論文所說大規模語言模型「危害大於利益」,而Google解僱一票員工,對這件事的態度就不言而喻。或許從此角度就能理解米契爾加入Hugging Face的原因。

(本文由 雷鋒網 授權轉載;首圖來源:Hugging Face

延伸閱讀: