模型開源又強大?神祕公司成了超越巨頭和學閥的 AI「第三勢力」

作者 | 發布日期 2022 年 09 月 01 日 8:45 | 分類 AI 人工智慧 , 科技趣聞 , 網路 Telegram share ! follow us in feedly


AI 生成圖片是最近熱門的新技術。紅到什麼程度?有公司開始「套殼」出道。本週某新創 WriteSonic「抄襲」知名模型 Stable Diffusion,做出 AI 畫圖產品 Photosonic AI。

這還沒完,這家公司居然把產品堂而皇之發到產品社群 Product Hunt,甚至一度衝到第二名。Stable Diffusion 完全免費開源,所有程式碼都在 GitHub 公開,任何人都可使用──前提是遵循原專案 CreativeML Open RAIL-M 許可證。

開發者 Louis Castricato 發現,WriteSonic 並沒有註明許可證,Photosonic AI 任何地方也沒標註技術來源。他對 WriteSonic 喊話:「希望你們在 VC 面前沒有假裝這東西是自己做的。」事情還沒完全鬧開,不過 Product Hunt 有不少人質疑。截稿前 WriteSonic 創始人都未回應。

Stable Diffusion 一週前才公開,這次抄襲事件反映出射出這項 AI 技術有多紅、Stable Diffusion 有多受歡迎。AI 圖片生成技術有 DALL·E、Midjourney、DALL·E mini(現用名 Craiyon)、Imagen、TikTok AI 綠幕等知名產品。

Stable Diffusion 有強大生成能力和泛用性,模型可直接用消費級顯卡執行,生成速度也相當快。免費開放更讓 AI 圖片生成模型不再是少數人的玩具。

在強者如雲、巨頭紛紛入局的 AI 圖片生成領域,Stable Diffusion 背後的「神祕」機構 Stability AI 也像「世外高僧」,創辦人不是太出名,創辦故事和融資細節也不公開;加上免費開源 Stable Diffusion 的慈善行為,更增加對這家神祕 AI 機構的興趣。

今天就來深入了解一下 Stable Diffusion 和 Stability AI,在 AI 領域異軍突起的「第三勢力」。

消費級顯卡秒速生成,完全開源

Stable Diffusion 是文字轉圖片的生成模型,只要幾秒就能生成比同類技術解析度、清晰度更高,更具「真實性」或「藝術性」的圖片。

開發領導者有兩位,分別是 AI 影視剪輯技術創業公司 Runway 的 Patrick Esser,和慕尼黑大學機器視覺學習組的 Robin Romabach。計畫技術基礎主要來自開發者在計算機視覺大會 CVPR22 合作發表的潛伏擴散模型(Latent Diffusion Model)研究。

計畫也得到外部開發社群及 Stability AI 機構生成技術團隊支援,且從 DALL·E 2、Imagen 等巨頭模型計畫整合經驗參考。發表時還專門感謝這些「競品」。

(Source:Stability AI

訓練方面,模型採用 4 千台 A100 顯卡集群,花了一個月訓練。訓練資料庫來自大規模 AI 開放網路計畫旗下的注重「美感」子集 LAION-Aesthetics,有近 59 億條圖片─文字平行數據。

雖然訓練過程的算力要求特別高,Stable Diffusion 用起來還是相當親民:可用普通顯卡執行,即使記憶體不到 10GB,仍可幾秒內生出高解析度的圖片。

模型專門針對消費級計算設備最佳化,意味更多入門級研究者、內容創作者及普通大眾,都可頻繁接觸和使用 Stable Diffusion,感受 AI 內容生成技術的最尖端,為工作和生活創造便利和樂趣。

8 月初團隊先大範圍公測,迴響非常熱烈,受大批研究者和測試用戶歡迎。於是團隊很快就在 8 月 29 日公開 Stable Diffusion 模型,只要遵循 OpenRAIL-M 許可證規定,且不挪用至非法和非道德場合,任何人都可商業或非商業使用、改造和再發表模型。

Stable Diffusion 並不是 AI 內容創作、AI 藝術領域的第一個模型,很多人都以為它只是跟隨者。

但不是這樣。

(Source:Stability AI

首先,和其他開放程度相似的模型(如 Craiyon、Disco Diffusion 等)相比,Stable Diffusion 結果更寫實,完全不亞於 DALL·E、Imagen 等巨頭開發的超大模型。

其他同類模型往往只選擇一種風格,如 TikTok AI 綠幕模型,藝術風格就明顯偏油畫;Midjourney 偏現代抽象藝術作品;Googlre Imagen 有明顯寫實+渲染動畫風格,DALL·E mini 則是迷因圖風。

且 Stable Diffusion 完全開源,以及商業/非商業的超高自由度,成為「離群者」(outlier),和 DALL·E、Imagen 等封閉/半封閉產品間形成巨大鴻溝。任何人都可不花錢,只要複製 Stable Diffusion 原始碼,按照喜歡的方式研究,並處理需要的文字生成圖片任務,甚至開發獨立應用或服務。

從 Stability AI 公開模型後,有相當多人用它完成藝術創作,開發各式各樣 demo、產品及非常有趣的小計畫。如下面 Anthony Cao 開發的設計軟體 Figma 工具,就是藉 Stable Diffusion 的能力,一句話生成用戶介面元素。

(Source:Anthony Cao)

Xander Steenbrugge 更厲害,大量嘗試後鎖定 36 條連續文字輸入提示,成功調教 Stable Diffusion 模型,輸出非常震撼的影片。他取名為〈穿越時空的旅行〉:

AI 學術大老 Andrej Karpathy 卸任特斯拉 AI 總監後,於 YouTube 頻道開了 2 小時多的機器學習 Python 入門課。有趣的是除了這堂課,所有影片都是用 Stable Diffusion 生成的。

就連「競品」Midjourney 都整合 Stable Diffusion 開發功能,讓用戶同時用兩個模型生成圖片:

就這樣,Stable Diffusion 做到「開源」和「高品質結果」兩全其美,正是它最受關注的原因。特別是開源屬性,不僅打開 AI 藝術創作的新大門,更重要的是這扇門比以往的門更寬、門檻更低。

公開同時,Stability AI 也上線新工具網站,名為 DreamStudio Lite,幫助更多普通用戶和創意玩家方便使用 Stable Diffusion 模型。網頁下方有個文字框,用戶可直接輸入提示;網頁右邊工具欄還能調節圖大小、擴散模型步驟數量、生成圖片的數量等。顧名思義,現在 DreamStudio Lite 只是輕量版,Stability AI 團隊正在加速開發高級功能,包括使用設備顯卡、動畫支援、更新生成、插值修復等。

Stable Diffusion 讓創作這件事不再只是有高級創意訓練的人專屬的遊戲,讓更多人受益。從這角度看,力推模型開發和開源的背後組織 Stability AI 厥功至偉。然而很多人並不熟悉這家名不見經傳的神祕機構。

延續 OpenAI 火種,成為「第三種力量」

約 10 年前,深度學習 AI 浪潮剛起步,研究者一邊親眼目睹潮流到來,一邊卻異常尷尬苦悶。當時算力和資金限制都非常高,研究者只有兩種選擇:不是停在學術界,但沒有任何算力可用,不然就跳槽到大公司,簽一堆 NDA,並在大公司產品團隊裡工作,很不自由,做出來的東西也是公司的,不能貢獻社會。

OpenAI 的出現,在學術和業界之外創造了「第三種」可能性:既有學術界相對輕鬆自由的環境,又有巨頭公司近乎無限的現金和充足算力,且以推動技術疆界擴展,造福社會為核心。

然而約 2 年前,OpenAI 累積的問題突然爆發。非營利模式難以為繼,機構也終於成立營利部門。那段時間一波大神級核心研究員,由於無法接受這一轉型,憤然離職。

後來的 OpenAI 還是推出了包括 GPT-3、DALL·E 等知名作品,但名聲早已大不如前。特別是 DALL·E 二代,明明是當時最領先的 AI 圖片生成技術之一,在網路的影響力卻不如 DALL·E mini──由一個完全無關的個人開發者所做的業餘開源計畫。

對於 OpenAI 的窘境,「超級富豪」Emad Mostaque 看在眼裡,疼在心裡。

此人身價究竟幾何,並沒有特別清楚詳盡的資料。已經公開的資訊顯示,他有至少 20 年的投資基金工作經歷,曾經在多家技術和基金公司擔任工程師、戰略分析師、首席投資長等職位。

在累積了巨額財富之後,對於利用自己的技術和資金來開展慈善和推動社會平等、技術普及等事業,這位英國人的興趣越來越高。

他在 2019 年創辦了一家採用技術降低手機套餐成本費用的公司,新冠襲來後又出資並親自主導在史丹佛大學組建了一個非營利性質的大數據平台計畫,與聯合國合作,旨在輔助各國政府制定防疫政策。

而在 2020 年創辦的 Stability AI,則是他的「慈善」事業的最新篇章。根據並不充分的資料,這家機構早期的絕大部分資金都來自 Mostaque 本人。

從這個角度來看,他的身分確實有點像馬斯克之於 OpenAI。

他決定自己接過使命,成立一家和 OpenAI 早期的非商業模式差不太多,但開放程度更高的機構。總而言之,就是要比 OpenAI 更「open」。

藉由 Stability AI,Mostaque 希望能夠延續 OpenAI 締造並發揚光大的 AI 科研「第三種力量」,同時避免重蹈其覆轍。

這家新機構也確實在貫徹開放、公益的 OpenAI 早期科研思路:它的第一個對外亮相的產品/技術,就是免費、開源、幾乎沒有任何商業味道的 Stable Diffusion 模型。

Mostaque 曾經表示,目前大約八成的 AI 研究資金全都流向了下一代技術,而這些技術從構思到開發,再到測試和發布的整個過程裡,往往都是高度封閉的。

一個最典型的案例就是 Google。

做為矽谷大公司裡面投身 AI 基礎科研最早,投資額最大的公司,Google 近年開發的 PaLM、LaMDA、Imagen 等模型的封閉性越來越強,使用門檻相當之高,幾乎沒有開放給大眾的可能性。該公司的 AI 道德委員會,則被一些前委員、公司前員工以及第三方研究人士指責為「沒用」,反而成為公司內部 AI 研究部門非道德問題的「遮羞布」。

Mostaque 就在想,算力、資金,和大眾參與這三個問題,能否一同解決?「這裡一定有更好的辦法。」

幸運的是,他和團隊成功做到了這一點。

有一位網友甚至將 Mostaque 形容為 AI 科研領域的「Gigachad」(超級猛男):「他為人類未來做出的貢獻,比其他頂級 AI 公司加起來還要多。」

AI 技術分析師 Alberto Romero 則指出,Stability AI 的工作之重要性在於:人們不想看到其他人如何用最先進的技術創造出厲害的藝術作品,他們真正想要的是能夠自己上手嘗試。

而 Stability AI 不光把程式碼和模型權重放出來,甚至還更進一步,開發了一個相當友好的無程式碼、「開袋即食」的網站DreamStudio Lite,讓那些不想、也不會寫程式的人都能夠使用。

借助 Mostaque 之前做新冠大數據計畫時積累的人脈,Stability AI 目前已經和聯合國達成了合作,成為了國家間、學校間和跨國公司之間 AI 技術研發合作的橋樑。

最初,整個團隊還是在 Discord 聊天應用上運作的──目前很大程度上仍然如此。但今天的 Stability AI,似乎已經超越了 OpenAI 的範疇和意義,在包括學術和工業界的整個 AI 研究和應用領域都受到了巨大的歡迎。藉由 Stable Diffusion,更多人體會到了 AI 圖片生成技術的強大和美好。最尖端的 AI 模型,不再是少數人獨享的玩具,更多用戶都能夠享受和利用這項技術。

Stability AI 的口號是「AI by the people, for the people.」它能做到嗎?

(本文由 品玩 授權轉載;首圖來源:Stability AI

延伸閱讀: