員工竊取前東家演算法還拿去 PyTorch 開源?MIT 教授控告 Facebook

作者 | 發布日期 2020 年 03 月 15 日 12:00 | 分類 AI 人工智慧 , Facebook , 軟體、系統 follow us in feedly


上週,兩位麻省理工學院(MIT)教授設立的創業公司將 Facebook 告上法庭,指控 Facebook 侵犯他們的商業機密,還將核心演算法放在 GitHub 開源,開源的還恰好是深度學習框架 PyTorch 的關鍵程式庫。 

同時被告的還有神經魔法公司(NeuralMagic, Inc.)前員工亞歷山大‧茲拉特斯基(Aleksandar Zlateski),現在是 Facebook 人工智慧研究院科學家。茲拉特斯基被指控違反保密和競業禁止協定。

2020 年 3 月 4 日,美國麻省地區法院公布編號「第 20-10444 號民事訴訟」的起訴書,原告神經魔法公司敘述詳細過程

神經魔法公司創辦於 2017 年,創始人為 MIT 電氣工程與電腦科學系教授尼爾‧沙維特(Nir Shavit)和電腦科學與人工智慧實驗室科學家亞歷克斯‧馬特維耶夫(Alex Matveev)。

核心技術之一是包在編譯器裡的演算法,演算法有很大潛力,允許複雜數學函數在 CPU 高效執行,不需使用 GPU 這類專門硬體;還允許研究科學家使用大得多的資料集,可用在醫療保健、癌症篩檢、電子商務等方面,讓人工智慧應用降低花費和硬體成本。

茲拉特斯基是 MIT 博士後時第一個正式員工加入神經魔法。2018 年 3 月,他成為技術總監,基本年薪為 16.5 萬美元加期權。擔任技術總監期間,茲拉特斯基有許可權取得公司所有商業機密、專有資訊和商業計畫,關鍵是他能接觸同時也協助編寫編譯器核心演算法的來源碼。

2019 年 7 月,茲拉特斯基離開神經魔法加入 Facebook,並表示不會涉及以前參與的編譯器工作。神經魔法也選擇信任他,因為有保密協定,同時預期的工作內容也不涉及編譯器。

結果證明這種信任是錯的。不到 6 個月,2019 年 12 月,Facebook 向世界宣布並開源一個編譯器,可透過調查揭示,包括和神經魔法相同的專有演算法。Facebook 甚至還在發行公告向茲拉特斯基表示感謝:「團隊認可並高度讚賞茲拉特斯基對稀疏核心和統一程式碼緩衝區的貢獻。」

神經魔法究竟做了什麼

尼爾‧沙維特教授在 MIT 任教 30 多年,主要興趣是設計、達成和推理多處理器演算法技術,尤其是多核機器併發資料架構及控制行為的計算模型數學基礎。

2016 年,沙維特開始新挑戰,開發人工智慧系統重建大腦神經組織的貫通性,稱為「擷取大腦的連線圖」。

當他和馬特維耶夫教授一起在 MIT 實驗室測試時,在大量神經生物學資料的基礎上,發現使用正確演算法,可只使用標準電腦在這些大型神經生物學資料集執行神經網路,不需要專門硬體,且能達到非凡的速度。這促成神經魔法公司兩位教授準備將願景變成現實並推向市場。

這意味著資料科學家可透過 CPU 執行神經網路和推理引擎,不必用 GPU 或 TPU 這類專屬晶片,大大降低機器學習的硬體成本。另外,CPU 還能存取更多記憶體,不像專屬硬體有記憶體限制。神經魔法的技術,僅僅用軟體和演算法,就能代替高成本的 AI 硬體。

投資商也看到此技術的前景,公司進行過兩輪融資,從 Comcast、NEA 等投資人累計募集到 2,000 萬美元的風險投資。

官司之爭

據起訴書稱,2019 年 11 月,Facebook 在 Github 披露神經魔法的演算法。一個月後,在西雅圖 TVM AI 開發者大會,Facebook 公布演算法開源,支援神經網路在 CPU 高效執行。

直到 2020 年 1 月,LinkedIn 文章才提醒到馬特維耶夫教授,Facebook 盜用了神經魔法演算法。Facebook 把開源編譯器稱為「Sparse GEMM JIT」,在相關部分完成神經魔法的演算法。

Github 的修改歷史也表明,最早發表者是 Facebook FBGEMM 套裝軟體負責人 Jongsoo Park,茲拉特斯基則列為第一個程式碼審查人。而 FBGEMM( Facebook GEneral Matrix Multiplication,矩陣乘法)正是 PyTorch 框架的卷積庫

2020 年 1 月 22 日,神經魔法書面要求 Facebook 移除 Github 侵權的部分,Facebook 卻拒絕接受。

神經魔法表示,茲拉特斯基違反了加入神經魔法時簽署的保密協定,他和 Facebook 捨棄了要求 Github 消除資訊的權利。神經魔法要求獲得 3 倍實際損害賠償,以及律師費與禁止使用商業祕密的禁令。

神經魔法還在起訴書裡稱,目前只能看到 Github 開源部分的內容,而茲拉特斯基可能還會向 Facebook 披露更多資訊,在內部或未來開源版使用,這些持續披露會進一步損害神經魔法的市場和業務。

影響

對 Facebook 而言,PyTorch 是最受歡迎的深度學習框架。此次官司訴訟,會對未來造成多大影響還未可知。

2019 年 6 月,Facebook 曾涉及另一場訴訟,普林斯頓大學電腦科學家從名為 Planner 5D 的軟體裡,抓取超過 45,000 個檔案,用來訓練人工智慧演算法。這些資訊組成稱為 SUNCG 的數據集。

因 Facebook 資助普林斯頓大學,SUNCG 資料集使用 Facebook 的虛擬實境公司 Oculus,並當作數據集資源辦了一次資料競賽。結果 Planner 5D 公司將 Facebook 和普林斯頓大學都告上法庭,最後數據集也撤掉。

這體現開源、AI 和學術涉及的複雜法律和倫理問題。開源很常見,特別是科學家和開發人員中間也可加快科學進步,但要此演算法和資料鏈條的每個人都同意才行。

對 Planner 5D 而言,對建立的模型和場景擁有唯一所有權,所有權能保證商業成功。對神經魔法公司也一樣,本來 Facebook 是其專有演算法的潛在大客戶,結果因員工挖角跳槽,不僅賠了演算法,還開源了公諸於世。

對剛創業的商業公司而言,這可能是災難性事件,獨有的演算法或資料都是 AI 時代的關鍵核心;對 Facebook 而言,雖然並沒有變成私有,而是開源演算法或數據,但畢竟涉及智財權的源頭及法律的衝突。

在機器學習社群,大家討論熱烈,眾說紛紜。

Reddit 機器學習論壇網友 TSM 認為,此不涉及專利和版權,只是演算法為商業祕密共用。商業祕密應受到保護,可阻止大公司挖角小公司員工以竊取機密,如豐田曾花很多時間聘請福特的進階員工,了解福特如何完成一些特殊的製造過程。

網友程式辣椒認為,目前至少有 20 家新創公司在做類似非 GPU 晶片稀釋計算,只有演算法對公司而言不是好基礎,除非有特殊的實踐法,沒有人能複製,否則投資價值不大。網友 hitaho 則說:「我會把程式碼 fork 一份,先下載再說。」

(本文由 雷鋒網 授權轉載;首圖來源:pixabay