Stable Video Diffusion 發表,可用圖片產生影片

作者 | 發布日期 2023 年 11 月 26 日 0:00 | 分類 AI 人工智慧 , 軟體、系統 line share follow us in feedly line share
Stable Video Diffusion 發表,可用圖片產生影片


Stability AI 宣布「Stable Video Diffusion」基於現有 Stable Diffusion 文字到圖像 AI 模型,用圖片產生影片,模型處於「研究預覽」階段,使用者需同意特定使用條款,如預期應用(如教育或創意工具、設計和其他藝術過程等)和非預期用途(如對人或事的真實或事實性表達)。

Stable Video Diffusion 有兩種模型:SVD 和 SVD-XT。SVD 能將靜態圖像轉為 14 幀 576×1,024 影片,SVD-XT 使用相同架構,但幀數提高到 24 幀,兩者均能以每秒 3~30 幀速度產生影片。根據白皮書,SVD 和 SVD-XT 最初以數百萬影片的資料庫訓練,然後用數十萬至百萬小型影片庫「微調」。但影片資料庫來源不清楚,可能造成 Stability AI 及用戶使用權的法律和道德挑戰。

儘管如此,Stable Video Diffusion 技術仍有限制,如無法產生靜態或慢動作影片,不能用文字控制,無法清晰渲染文字,也不能正確產生人臉和人物。Stable Video Diffusion 推出也引發擔憂,尤其可能濫用的風險。模型似乎沒有內建內容過濾器,可能拿去製作不當內容。

Stability AI 表示,模型有很高擴展性,並可適用產生物體 360 度圖等。計劃推出一系列基於 SVD 和 SVD-XT 的新模型,以及將文字提示帶上網路的「文字到影片」工具,最終目標似乎是商業化,潛在應用領域有廣告、教育、娛樂等。

(本文由 Unwire HK 授權轉載;首圖來源:Stability AI