Meta 新發表 Movie Gen 擁四大功能，AI 生成和編輯影片、配上聲音

在影像生成領域，大力投資 AI 的 Facebook 母公司 Meta 緊追 OpenAI、Google 及其他新創的腳步，最新發表的影像產生器「Movie Gen」是 Meta 長期 AI 研究且經過驗證的成果。

Meta 4 日發表 Movie Gen，具有影片生成、個性化影片生成、精確影片編輯、音訊生成 4 大功能；也就是說，能以簡單的文字提示產生影片、配上聲音，將個人照片轉變成獨特的動態影片，甚至可以編輯現有影片。

影片生成

首先，Movie Gen 針對文字轉圖片和文字轉影片進行聯合模型的最佳化，可建立高品質和高解析度的圖片和影片，這個 300 億參數（30B）參數轉換器模型能以每秒 16 幀的速率產生長達 16 秒的影片。不只如此，模型可以推理影片合理呈現的物體運動、主客體相互作用甚至是運鏡動作。

More examples of what Meta Movie Gen can do across video generation, precise video editing, personalized video generation and audio generation. pic.twitter.com/Dz65QGNgaJ

— AI at Meta (@AIatMeta) October 4, 2024

▲ Movie Gen 可做到文字轉影片。

個性化影片生成

上述模型也支援個性化影片生成，即輸入人們的照片，結合文字提示，產生一段影片，內容包括照片本人和文字提示提供的豐富視覺細節。

精確影片編輯

Movie Gen 更結合影像生成和先進的影片編輯，可新增、移除或替換影片中的元素，也能修改背景或風格。面對需要專業技能的傳統工具或缺乏精確度的新興影像生成工具，Movie Gen 保留原始內容，僅針對相關像素進行調整。

音訊生成

Meta 也為 Movie Gen 訓練一個 130 億（13B）參數音訊生成模型，針對影片和文字提示可產生長達 45 秒的音訊，包括環境音效、擬音（Foley）音效、樂器背景音樂，也能同步與影片結合，讓影片內容更動人。此外，Meta 引進一種音訊擴展技術，可為任意長度的影片產生連貫的音訊。

在 Instagram 查看這則貼文

Mark Zuckerberg（@zuck）分享的貼文

▲ Meta 執行長祖克柏也玩 Movie Gen。

Meta 在影像生成上，第一波始於 Make-A-Scene 系列模型，它能建立圖片、音訊、影片及 3D 動畫。隨著擴散模型的出現，Meta 第二波對 Llama Image 基礎模型進行研究，能夠產生更高品質的圖片、影片及影片編輯。Movie Gen 則 Meta 的第三波成果，結合上述所有模型性能，並能更細微的控制。值得一提的是，Meta 聲稱結合獲得許可和公開可用的資料集訓練模型，但未具體說明資料來源。

Meta 帶來令用戶感興趣的使用情境，舉例運用 Movie Gen 製作一段如「生命中的一天」Reels 短影音在 Instagram 分享，或為朋友製作生日動畫並透過 WhatsApp 發送給對方，暗示 Movie Gen 產品走向，外媒 VentureBeat 更點名 Movie Gen 明年將透過 Instagram 推出。Meta 也強調，生成式 AI 無法取代藝術家和動畫師的工作，分享這項研究是因為相信新技術可以幫助人們以新的方式表達自己。

Movie Gen 問世不禁令人想到 OpenAI 年初發表的 Sora，它繼 DALL·E、ChatGPT 後再度令外界驚豔。OpenAI 先向少數電影製作人員、視覺藝術家、設計師等提供測試，OpenAI 前技術長穆拉蒂（Mira Murati）向《華爾街日報》證實 Sora 今年底釋出。不過，Sora 需要耗費龐大運算資源，OpenAI 除持續改善成本結構外，甚至考慮以自研晶片強化處理 Sora 影像生成。

（首圖來源：Meta）