影像版 Midjourney 又進化:一句話產生影像,Google 投資,網友大呼好萊塢已死!

作者 | 發布日期 2023 年 06 月 20 日 8:30 | 分類 AI 人工智慧 , Google , 數位內容 line share follow us in feedly line share
影像版 Midjourney 又進化:一句話產生影像,Google 投資,網友大呼好萊塢已死!


提到生成式 AI 大模型,文字領域有 ChatGPT,圖像領域有 Midjourney 和 Stable Diffusion,那影片領域有什麼?

很多人第一個會想到Runway公司的Gen-1。Gen-1是Runway 2月推出的(也是第一款)文字產生影像的AI大模型。不過幾天前更新版Gen-2發表了。Gen-2從3月底開始小範圍測試,當時發言人Kelsey Rondenet說Gen-2會在幾週內開放,不過直到6月,這承諾才算兌現。

千呼萬喚始出來的Gen-2,到底進化到哪了?

真正從零產生影像

發表Gen-1時Runway專門做網頁講解Gen-1怎麼用,有五個功能:

  1. 輸入一張圖片當提示,讓影像產生你想要的風格。
  2. 上傳影片及提示詞,產生想要的影片(如拉布拉多變成大麥町)。
  3. 輸入圖片或提示詞,讓3D建模影像草稿變完整。
  4. 上傳隨意影片,產生有故事感的片段(如隨意擺放的書最後成為高樓大廈)。
  5. 原影像基礎上,自由設定想要的風格(哪怕變出現實不存在的奇行種)。

發現了嗎?Gen-1可用前提是要有支現成影片,Gen-1作用只等於原影片加上高級濾鏡。到了Gen-2,才真正達成從零產生影片的夢想。從介紹看,Gen-2比Gen-1多了3個厲害功能:

  1. 文字到影片:只要輸入提示詞,就能產生影片。
  2. 文字和圖片到影片:輸入一張圖片+提示詞,就能讓圖片動起來。
  3. 圖片到影片:只要輸入一張圖片,就能自動產生一段影片(如讓雲飄起來、水流人走)。

如果說Gen-1只能當成修改影片工具,那Gen-2幾乎就能當成影片生產工具了──試想用文字產生幾支影片,拼成一支就能講個完整的故事……總之就是只能玩玩和能商用的差別。雖然目前Gen-2產生影片依然有細節模糊、形體扭曲等問題,且長度最多4秒,但可能是現在影片產生領域最厲害的AI工具了。

當然從Gen-2開始,代表Runway正式進入收費時代:Gen-1完全免費,Gen-2免費版功能有限(試用額度只有105秒,約等於26支4秒影片,且解析度低、有浮水印),用戶每月付15美元(或144美元包年)才有完整功能。

Runway是啥來頭?成立於2018年,一直研究怎麼用AI提升影片製作效率,最有名事蹟應是去年最紅電影〈媽的多重宇宙〉,讓人印象深刻的麵條手還有石頭對話等超現實場景都有用到Runway的技術。不過很多人可能忽略,之前爆出大醜聞的Stable Diffusion也和Runway關係密切。

Stable Diffusion(圖像產生領域最熱門的大模型之一)背後公司Stability AI雷爆了,媒體列出Stability AI罪狀之一就是把Stable Diffusion的10億程式碼成果「據為己有」,公司充其量只是提供Stable Diffusion算力(也出錢)。

真正出力的是慕尼黑大學、海德堡大學及Runway。Stable Diffusion最早於CVPR 2022年中發表的論文出現,也就是說Runway是Stable Diffusion研發者之一。Runway去年還因發表Stable Diffusion v1.5被Stability AI抓著不放,但那次輿論最終站在Runway這邊,是Runway「成名」前為數不多的八卦。

後來就像多數大模型開發公司,不再參與Stable Diffusion的Runway發表Gen-1後,發展速度就像坐上火箭,月初拿到Google投資,距離D輪1億美元融資剛過一個月,累計融資至少2億美元,成為大模型領域的明星。2021年12月對沖基金Coatue花3,500萬美元投資Runway時,估值為2億美元,一年後估值變成5億美元,再過半年,估值又翻了3倍(保守有15億美元)。

網友:好萊塢 is dead

Gen-2讓不少網友興奮,Runway推文下出現一些普通用戶「求教程」的聲音:

不過已有行動力強的用戶試著用Gen-2產生影片,不少用戶都在Runway推文留言交出4秒鐘「作業」。儘管Runway只列出Gen-2主要功能,並沒有教大家更多玩法,但聰明的網友都自己學著用Gen-2產生影片剪出短片。

如「Monster of the sea」(海怪)的48秒故事:天氣晴朗、風平浪靜的一天,一艘帆船悠閒行駛在海上,乘客愜意乾杯喝酒,突然狂風大作,船員拿起望遠鏡往遠處望,發現一隻巨大的海怪出現,船隨著海浪開始顛簸,甚至燒起來,大家紛紛棄船逃生。

甚至有直接用ChatGPT寫劇本,再用Gen-2產生影片說故事。還有用戶拿Gen-2素材剪了一支1分鐘的電影預告,最後加上坎城影展logo,如果影片品質好一點,都能以假亂真了。

不過品質差、時間太短確實成了Gen-2的槽點,且Android App問題,Gen-2和Gen-1一樣沒長進。當然更多用戶還是對Runway很寬容。網友評價「雖然它很不完美,但有點可肯定,對整個娛樂影視產業有革命性的改變。」還有網友說「好萊塢已死,任何人都可拍出世界級電影。」

真能取代好萊塢嗎?

雖能理解為何網友對Gen-2如此興奮,因很明顯假以時日,文字產生影片成熟,代表拍電影不再是好萊塢的專屬權利,任何人都可拍電影。Runway並沒有說Gen-2客群是誰,不過可從App及與影視工作室合作等猜到哪些人會用到Gen-2:專業製片公司、個人工作室及普通用戶。

雖然Gen-2對普通用戶很友善,但製片公司當然也會用Gen-2,畢竟大型語言模型與以往大熱後就銷聲匿跡的概念產品不同,會成為又一次深刻改變人類產業的革命,幾乎是各行各業的共識。中國已有影視計畫藉大模型完成,如劇本籌備階段,會把分鏡交給Midjourney做(據說省下幾十萬成本)。假設有天Gen-N成熟到也能產生能直接用的完美鏡頭呢?

或可拿大模型的遊戲業應用比較,Midjourney等工具顯然對遊戲公司產生非常現實的影響:先是出於節省成本目的砍掉美術外包團隊,接著就是動到自己人,甚至有從業者提到最多八成原畫師會失業。考慮到大模型更新速度,影響到影視業也是遲早的事。不過Gen-2可能會先淘汰影視業流水線「工人」,卻淘汰不了真的藝術家。

有個說法,AI模型產生內容,可能80%只是無聊重複人類經驗,但也可能有20%是可用的東西,如中式美學和賽博龐克如何融合,普通創作者可能需要極長時間思考,AI卻可能產生讓人意想不到的結果,這20%就是AI存在的意義,剩下的就讓有創造力的人補足。

有業者提到一個觀點,AI大模型進入影視業,不代表非專業人士也能輕鬆上手──如果想藉AI的力量創作劇本,也需要學習劇本公式和故事結構等基本知識,不具備這些的小白即便有AI超級助理也無濟於事。

回到AI是否能取代好萊塢的問題,其實好萊塢可能是最早對新技術「入侵」有反應的有優勢者,5月初數以千計好萊塢編劇工會(WGA)成員罷工示威,訴求之一便是抵制寫劇本用到AI。如果有天Gen-N真的出現,就會換成好萊塢導演跳出來抵制了。

(本文由 品玩 授權轉載;首圖來源:網頁截圖)