Stability AI 發表 Stable Diffusion 3 預覽,提高文字生成圖像品質

作者 | 發布日期 2024 年 02 月 23 日 16:24 | 分類 AI 人工智慧 line share follow us in feedly line share
Stability AI 發表 Stable Diffusion 3 預覽,提高文字生成圖像品質


AI 新創 Stability AI 以圖像生成軟體 Stable Diffusion 聞名,22 日發表下一代 Stable Diffusion 3 預覽,承襲 Stable Diffusion 系列優點,能夠產生更多主題的圖像,並提高文字生成的品質和準確性。Stability AI 雖未公開展示操作,但已開放想嘗試的用戶加入等候名單。

Stable Diffusion 3 參數從 8 億到 80 億不等,適合在各種裝置上(從智慧手機、AI PC 到伺服器)執行,參數大小與這款模型可以產生多少圖像細節的能力有關,較大模型需要 GPU 加速器有更多 VRAM 才能運作。

「這是使用新型的 diffusion transformer(類似於 Sora),並結合 flow matching 和其他改進」,Stability AI 執行長 Emad Mostaque 透過個人 X 帳號表示。由於利用 transformer 改進,不僅可以進一步擴展並且接受多模態輸入。

自 2022 年以來,可以看到 Stability AI 推出了一系列圖像生成模型:Stable Diffusion 1.4、1.5、2.0、2.1、XL、XL Turbo,直到現在 Stable Diffusion 3。Stability AI 提供更開放的方案,再到像是 OpenAI DALL·E 3 這樣的圖像生成模型,儘管用到受版權保護的訓練資料、具有偏見和濫用的可能性而引發爭議。Stable Diffusion 的模型開放權重且來源可用,這意味著模型可在本地端執行並進行微調,使輸出更符合需求。

雖然 Stable Diffusion 3 還未能廣泛開放,但 Stability AI 表示,一旦測試完成將能免費下載並在本地端執行。「與之前模型一樣,這個預覽會收集意見,在公開發表之前提高性能和安全性」,Stability AI 強調。

(首圖來源:Stability AI

延伸閱讀: