Stable Video Diffusion 發表，可用圖片產生影片

Stability AI 宣布「Stable Video Diffusion」基於現有 Stable Diffusion 文字到圖像 AI 模型，用圖片產生影片，模型處於「研究預覽」階段，使用者需同意特定使用條款，如預期應用（如教育或創意工具、設計和其他藝術過程等）和非預期用途（如對人或事的真實或事實性表達）。

Stable Video Diffusion 有兩種模型：SVD 和 SVD-XT。SVD 能將靜態圖像轉為 14 幀 576×1,024 影片，SVD-XT 使用相同架構，但幀數提高到 24 幀，兩者均能以每秒 3~30 幀速度產生影片。根據白皮書，SVD 和 SVD-XT 最初以數百萬影片的資料庫訓練，然後用數十萬至百萬小型影片庫「微調」。但影片資料庫來源不清楚，可能造成 Stability AI 及用戶使用權的法律和道德挑戰。

儘管如此，Stable Video Diffusion 技術仍有限制，如無法產生靜態或慢動作影片，不能用文字控制，無法清晰渲染文字，也不能正確產生人臉和人物。Stable Video Diffusion 推出也引發擔憂，尤其可能濫用的風險。模型似乎沒有內建內容過濾器，可能拿去製作不當內容。

Stability AI 表示，模型有很高擴展性，並可適用產生物體 360 度圖等。計劃推出一系列基於 SVD 和 SVD-XT 的新模型，以及將文字提示帶上網路的「文字到影片」工具，最終目標似乎是商業化，潛在應用領域有廣告、教育、娛樂等。