估值 20 億美元的「笑臉」正在拆掉 OpenAI 的圍牆

作者 | 發布日期 2023 年 04 月 18 日 8:00 | 分類 AI 人工智慧 , 新創 , 開放資料 line share follow us in feedly line share
估值 20 億美元的「笑臉」正在拆掉 OpenAI 的圍牆


ChatGPT 引發的人工智慧風潮還在猛烈吹襲,但各角度看,都是巨頭爭霸場:更大模型、更強算力、更多用戶、更雄厚資金,都成為想加入角逐的門票。同時核心技術研究也從開放逐漸走向封閉。高牆築起過程,也有新創公司想高舉旗幟來場革命,尤其引人注目的是開源新創公司 Hugging Face。

Hugging Face已是全球最受歡迎開源機器學習社群平台,不僅創下GitHub有史以來增長最快的AI專案紀錄,估值也一路衝破20億美元。微軟和浙江大學聯合發表的HuggingGPT論文,更把Hugging Face推到舞台中心,讓更多人注意到這股與眾不同的發展力量。

HuggingGPT紅了,但Hugging是啥?

月初微軟亞洲研究院和浙江大學聯合發表最新研究HuggingGPT,介紹全新協作系統,開發者能於ChatGPT幫助下快速準確選擇合適的人工智慧模型,完成綜合文字、影片、語音等複雜任務。專案於Github開源,還取了超中二的名字JARVIS(沒錯,就是鋼鐵人AI管家的名字)。研究涉及兩個主體,一是眾所周知的ChatGPT,另一個就是AI社群Hugging Face。

▲ HuggingGPT研究論文。

Hugging Face到底是做什麼的?

簡單說Hugging Face是人工智慧開源平台,用戶發表和共享預訓練模型、資料庫和示範檔案等。Hugging Face共享超過10萬個預訓練模型,上萬資料庫,包括微軟、Google、彭博、英特爾等各行業上萬機構都有使用Hugging Face。

在HuggingGPT,ChatGPT扮演「操作大腦」角色,自動分析用戶需求,再至Hugging Face「AI模型池」自動選擇模型、執行和報告,讓開發者更快速開發更複雜的人工智慧程式。

雖然ChatGPT與Hugging Face能牽手,但本質來說,Hugging Face跟OpenAI方向相反。最大不同在開發者服務方面,OpenAI正在搭建人工智慧圍牆,僅允許滿足條件的機構和個人進入,但Hugging Face希望每人都能做出生成式AI模型,包括各企業和普通開發者。

2月OpenAI上線Foundry新開發者平台,用戶可執行OpenAI最新機器學習模型,但產品描述,OpenAI明確表示Foundry是為運行較大工作負載的尖端客戶設計,價格表顯示即使GPT-3.5輕量版,三個月費用高達7.8萬美元,一年費用26.4萬美元。

Foundry公開後,Hugging face立刻宣布與AWS成為合作夥伴,並呼籲「讓人工智慧走向開放」,所有開發人員都能使用AWS託管服務並處理Hugging Face任何模型。

(Source:Hugging Face

巨頭林立的AI戰場,Hugging Face就像強力民兵,當巨頭努力保持自己的生成式AI地位,Hugging Face目標則是找尋各種途徑確保AI研究空間開放。這點讓Hugging Face頗具「中立」色彩,無論微軟、Google、亞馬遜、Meta等大公司打得再激烈,也幾乎都是Hugging Face的支持者。

而Hugging Face是如何發展成長,業務內容又是什麼?

歪打正著的創業,造就AI界頂端「笑臉」

普通人眼中,人工智慧一向屬於「冷酷感」很強的領域,無論充斥大量數字、模型演算法,還是各種零件組成的機器人,都讓人有距離感。但專為人工智慧開發者服務的Hugging Face卻主打反差萌,笑臉Emoji加上攤開的雙手,Logo甚至算過分可愛。

會用可愛型Logo,是因一開始Hugging Face其實是針對青少年開發的聊天機器人。Hugging Face想法是基於自然語言處理(NLP)AI技術,為年輕人開發有娛樂性、類似電子寵物的個性化聊天機器人,讓大家無聊時跟它聊八卦、問它問題、產生有趣圖片等。

這種新鮮的人機社交得到關注。2017年3月9日,Hugging Face App在iOS App Store上架,並拿下SV Angel、NBA球星杜蘭特等120萬美元天使投資。之後一年多,Hugging Face都主攻聊天機器人業務,自然語言理解訓練並開發產品,高峰期每天處理消息量達100萬筆。2018年5月再獲400萬美元種子輪融資。

雖然發展算不錯,但當時AI理解力和聊天水準遠不及ChatGPT有趣,加上並非剛需,Hugging Face規模一直難擴大。

但為了開發這聊天機器人,Hugging Face團隊做了很重要的事,就是構建底層庫容納各種機器學習模型和各類型資料庫。幫助訓練聊天機器人檢測文本情緒、產生連貫回應、理解不同對話主題等,並在GitHub始終以開源形式持續公布底層資料庫內容。

就這樣不慍不火發展,2018年底Hugging Face出現重要轉折。11月Google宣布推出基於雙向Transformer的大規模預訓練語言模型BERT,瞬間成為自然語言領域最受開發者關注的模型。但Google只公布BERT的TensorFlow版,Hugging Face就想為何沒有Pytorch版?於是創辦人之一Thomas Wolf就花幾天時間完成並開源PyTorch-BERT,沒想到就是這「無心插柳」專案讓Hugging Face一炮而紅。

藉BERT東風,Hugging Face Pytorch-pretrained-BERT發表三個多月後,快速達成Github有5,000+星數的成就,到7月星數更破萬,走紅速度遠超過同類開源項目,在Github的AI領域一飛沖天。乘著發展勢頭,Hugging Face產品戰略開始調整,花更多精力開源模型建設,將Pytorch-pretrained-BERT項目正式命名為Transformers,同時支援Pytorch和Tensorflow 2.0。

借助Transformers庫,開發者快速使用BERT、GPT、XLNet、T5、DistilBERT等NLP大模型,並使用這些模型執行文本分類、文本總結、文本生成、訊息抽取、自動QA等任務,節省大量時間和計算資源,使Hugging Face的名氣越來越響亮。

▲ Hugging Face的Github的星數成長曲線。(Source:Lux Capital)

到2019年12月,Hugging Face拿到Lux Capital領投的A輪融資,融資額也比前一輪上升一個等級達1,500萬美元。從這輪開始,Hugging Face標籤不再是聊天機器人,而把AI開源放在首位。可愛的笑臉emoji開始傳遍人工智慧開發者群。

朝人工智慧界Github前進

2019年底All in AI開源後,Hugging Face著手構建完整開源產品生態。用Hugging Face的話講,他們做的就是架起人工智慧科研和應用的橋梁(bridges the gap from research to production)。

過去幾年,人工智慧研究和商業應用相對獨立,研究部門任務就是找尋尖端技術,建模型、發論文,應用部門則要將最新技術放入產品追求變現。如何將研究成果系統性整合成開源產品,讓開發者能很快上手轉化,是長期困擾業界的問題。

Hugging Face歪打正著摸到痛點,接著開始認真向下挖掘,可說是承擔了人工智慧研究走向應用過程幾乎所有複雜繁瑣的細碎工作,方便任何人工智慧從業者都能便捷使用研究模型和資源。

除了頭號產品Transformers,Hugging Face還建立Tokenizers、Datasets、Accelerate等資料庫,從模型到資料庫、從託管平台到性能最佳化,以開源社群為載體,Hugging Face建立完整人工智慧開發生態,涵蓋NLP、計算機視覺、語音、時間序列、生物學、強化學習等各領域。

且Hugging Face並不是受ChatGPT帶動,2022年5月市場注意力都還停在Web3、元宇宙時,Hugging Face拿到紅杉、Lux Capital參與的1億美元融資,估值一舉突破20億美元。

▲ Hugging Face的融資歷史。(Source:企查查)

Hugging Face目標是成為人工智慧領域的Github,創始團隊認為,只有將少數人掌握的技術推廣出去,才能最大程度推動整個行業進步。商業角度來說,Hugging Face認為賦能整個AI社群的價值可能比專有工具高千倍,只要將1%變現就夠撐起高市值公司,類似例子有MongoDB、Elastic等。

除了蓬勃發展的開源社群,2020年開始,Hugging Face也做起企業客製自然語言模型,彭博社、高通、英特爾都是客戶,還推出AutoTrain、Inference API & Infinity、Private Hub、Expert Support等不同開發者取向的產品。報導顯示,2021年開始Hugging Face就是正現金流。

▲ Hugging Face的產品服務。

Hugging Face能以開源社群模式異軍突起,有些偶然也有必然。首先,過去幾年,人工智慧技術的進步是由全世界產學界共同推動,技術基因就有開放這點,因此建立平台鏈接研究者和開發者,是順應行業發展歷史和趨勢。此外,Hugging Face做完大量基礎工作,彌補人工智慧領域長期科學與生產的鴻溝,是很多開源平台沒做到的。

Hugging Face另一次採訪時CEO Clément Delangue表示,機器學習仍處於早期階段,開源社群提供的幫助很大,5~10年內,一定會有更多開源機器學習公司崛起。

(本文由 品玩 授權轉載;首圖來源:Hugging Face