OpenAI 發表文字生成影像模型「Sora」,快速創造逼真電影場景

作者 | 發布日期 2024 年 02 月 16 日 11:14 | 分類 AI 人工智慧 , 數位內容 line share follow us in feedly line share
OpenAI 發表文字生成影像模型「Sora」,快速創造逼真電影場景


ChatGPT 開發商 OpenAI 跨足影像生成領域,15 日發表文字轉成影片的全新 AI 模型「Sora」。

OpenAI 指出,透過簡短或詳細文字敘述,抑或是提供靜態圖片,Sora 就能產生具有多個角色、不同運鏡和背景細節的 1080p 影片。此外,Sora 還具有影片剪輯能力,可以填補剪輯缺失造成的錯誤細節。

「Sora 對語言有著深刻理解,使其能夠準確解釋提示文字並產生引人注目內容表達充滿活力的情感」,OpenAI 在官網介紹寫道,「這款模型不僅了解用戶透過提示文字提出的要求,還了解這些事物在物理世界的存在方式」。

對初學者而言,Sora 可以產生各種風格(如真實感、動畫、黑白等)影片,最長可達 1 分鐘,這比大多數文字轉成影片模型的成果還要長,而且這些 AI 生成影片保有合理的場景和連貫性,少有不符合物理世界的呈現方式。

▲ OpenAI 展示多個 Sora 影像生成實例。

儘管 OpenAI 有此先進技術,但它也承認這款模型不夠完美。「Sora 可能很難準確模擬複雜場景的物理原理,而且可能無法理解具體事例的因果關係。比方說,某個人可能咬了一口餅乾,但餅乾可能沒有出現咬痕。這款模型還有可能會混淆提示文字的空間細節,例如左右搞混,而且可能難以精確描述隨著時間演進發生的事件,例如依循特定的運鏡軌跡」,OpenAI 指出。

值得一提的是,OpenAI 目前將 Sora 定位在研究預覽版,未透露訓練模型的資料來源。OpenAI 更沒有讓 Sora 全面開放使用,深怕一旦大規模開放可能遭到濫用,造成難以收拾的後果。

OpenAI 正與專家合作探索是否存在漏洞以不法使用 Sora,並建立工具檢測影片是否由 Sora 產生。如果未來這款模型應用在面向大眾的產品中,OpenAI 將確保輸出內容包含來源 metadata。

OpenAI 旗下已有 ChatGPT、DALL·E 等應用產品,2024 年初即以 Sora 令業界驚豔。NVIDIA 資深研究科學家 Jim Fan 分析,Sora 是一個以數據驅動的物理引擎,可產生對真實或幻想世界的模擬。他舉兩艘海盜船在一杯咖啡內航行互相戰鬥的 AI 生成影片為例,Sora 模擬具有不同裝飾的海盜船,在咖啡杯航行避開彼此路徑而且保持動態效果,並注意到咖啡流動的流體力學,甚至是海盜船周圍形成泡沫等細節。此外,考量到咖啡杯與海洋相比尺寸小很多,應用移軸攝影營造微小氛圍。咖啡杯內航行海盜船在真實世界無法存在,Sora 仍能逼真模擬。

▲ Jim Fan 分享對 Sora 模型應用的觀察。

從 OpenAI 精心挑選的 Sora 實例看起來確實令人印象深刻,與我們所見的其他文字轉成影片技術相比,Sora 成果品質更好、呈現更流暢。

(首圖來源:影片截圖)

延伸閱讀: