影像版 Midjourney 又進化：一句話產生影像，Google 投資，網友大呼好萊塢已死！

提到生成式 AI 大模型，文字領域有 ChatGPT，圖像領域有 Midjourney 和 Stable Diffusion，那影片領域有什麼？

很多人第一個會想到Runway公司的Gen-1。Gen-1是Runway 2月推出的（也是第一款）文字產生影像的AI大模型。不過幾天前更新版Gen-2發表了。Gen-2從3月底開始小範圍測試，當時發言人Kelsey Rondenet說Gen-2會在幾週內開放，不過直到6月，這承諾才算兌現。

千呼萬喚始出來的Gen-2，到底進化到哪了？

真正從零產生影像

發表Gen-1時Runway專門做網頁講解Gen-1怎麼用，有五個功能：

輸入一張圖片當提示，讓影像產生你想要的風格。
上傳影片及提示詞，產生想要的影片（如拉布拉多變成大麥町）。
輸入圖片或提示詞，讓3D建模影像草稿變完整。
上傳隨意影片，產生有故事感的片段（如隨意擺放的書最後成為高樓大廈）。
原影像基礎上，自由設定想要的風格（哪怕變出現實不存在的奇行種）。

發現了嗎？Gen-1可用前提是要有支現成影片，Gen-1作用只等於原影片加上高級濾鏡。到了Gen-2，才真正達成從零產生影片的夢想。從介紹看，Gen-2比Gen-1多了3個厲害功能：

文字到影片：只要輸入提示詞，就能產生影片。
文字和圖片到影片：輸入一張圖片＋提示詞，就能讓圖片動起來。
圖片到影片：只要輸入一張圖片，就能自動產生一段影片（如讓雲飄起來、水流人走）。

如果說Gen-1只能當成修改影片工具，那Gen-2幾乎就能當成影片生產工具了──試想用文字產生幾支影片，拼成一支就能講個完整的故事……總之就是只能玩玩和能商用的差別。雖然目前Gen-2產生影片依然有細節模糊、形體扭曲等問題，且長度最多4秒，但可能是現在影片產生領域最厲害的AI工具了。

當然從Gen-2開始，代表Runway正式進入收費時代：Gen-1完全免費，Gen-2免費版功能有限（試用額度只有105秒，約等於26支4秒影片，且解析度低、有浮水印），用戶每月付15美元（或144美元包年）才有完整功能。

Runway是啥來頭？成立於2018年，一直研究怎麼用AI提升影片製作效率，最有名事蹟應是去年最紅電影〈媽的多重宇宙〉，讓人印象深刻的麵條手還有石頭對話等超現實場景都有用到Runway的技術。不過很多人可能忽略，之前爆出大醜聞的Stable Diffusion也和Runway關係密切。

Stable Diffusion（圖像產生領域最熱門的大模型之一）背後公司Stability AI雷爆了，媒體列出Stability AI罪狀之一就是把Stable Diffusion的10億程式碼成果「據為己有」，公司充其量只是提供Stable Diffusion算力（也出錢）。

真正出力的是慕尼黑大學、海德堡大學及Runway。Stable Diffusion最早於CVPR 2022年中發表的論文出現，也就是說Runway是Stable Diffusion研發者之一。Runway去年還因發表Stable Diffusion v1.5被Stability AI抓著不放，但那次輿論最終站在Runway這邊，是Runway「成名」前為數不多的八卦。

後來就像多數大模型開發公司，不再參與Stable Diffusion的Runway發表Gen-1後，發展速度就像坐上火箭，月初拿到Google投資，距離D輪1億美元融資剛過一個月，累計融資至少2億美元，成為大模型領域的明星。2021年12月對沖基金Coatue花3,500萬美元投資Runway時，估值為2億美元，一年後估值變成5億美元，再過半年，估值又翻了3倍（保守有15億美元）。

網友：好萊塢 is dead

Gen-2讓不少網友興奮，Runway推文下出現一些普通用戶「求教程」的聲音：

不過已有行動力強的用戶試著用Gen-2產生影片，不少用戶都在Runway推文留言交出4秒鐘「作業」。儘管Runway只列出Gen-2主要功能，並沒有教大家更多玩法，但聰明的網友都自己學著用Gen-2產生影片剪出短片。

如「Monster of the sea」（海怪）的48秒故事：天氣晴朗、風平浪靜的一天，一艘帆船悠閒行駛在海上，乘客愜意乾杯喝酒，突然狂風大作，船員拿起望遠鏡往遠處望，發現一隻巨大的海怪出現，船隨著海浪開始顛簸，甚至燒起來，大家紛紛棄船逃生。

“Monster of the sea" My 1st #Gen2 clip on @runwayml pic.twitter.com/ZaQlv96qdX

— MHU (@Sonnenstrom1) June 9, 2023

甚至有直接用ChatGPT寫劇本，再用Gen-2產生影片說故事。還有用戶拿Gen-2素材剪了一支1分鐘的電影預告，最後加上坎城影展logo，如果影片品質好一點，都能以假亂真了。

This summer, in a theater near you!

ゴールデン・イーロン・マスク

GEN-2 by @runwayml #gen2 #text2video pic.twitter.com/ibt2mPch6C

— Toni Seldr (@toniseldr) June 8, 2023

不過品質差、時間太短確實成了Gen-2的槽點，且Android App問題，Gen-2和Gen-1一樣沒長進。當然更多用戶還是對Runway很寬容。網友評價「雖然它很不完美，但有點可肯定，對整個娛樂影視產業有革命性的改變。」還有網友說「好萊塢已死，任何人都可拍出世界級電影。」

hollywoke is dead
anyone can make a world class movie

— Kan Deegan (@KanDeegan) June 7, 2023

真能取代好萊塢嗎？

雖能理解為何網友對Gen-2如此興奮，因很明顯假以時日，文字產生影片成熟，代表拍電影不再是好萊塢的專屬權利，任何人都可拍電影。Runway並沒有說Gen-2客群是誰，不過可從App及與影視工作室合作等猜到哪些人會用到Gen-2：專業製片公司、個人工作室及普通用戶。

雖然Gen-2對普通用戶很友善，但製片公司當然也會用Gen-2，畢竟大型語言模型與以往大熱後就銷聲匿跡的概念產品不同，會成為又一次深刻改變人類產業的革命，幾乎是各行各業的共識。中國已有影視計畫藉大模型完成，如劇本籌備階段，會把分鏡交給Midjourney做（據說省下幾十萬成本）。假設有天Gen-N成熟到也能產生能直接用的完美鏡頭呢？

或可拿大模型的遊戲業應用比較，Midjourney等工具顯然對遊戲公司產生非常現實的影響：先是出於節省成本目的砍掉美術外包團隊，接著就是動到自己人，甚至有從業者提到最多八成原畫師會失業。考慮到大模型更新速度，影響到影視業也是遲早的事。不過Gen-2可能會先淘汰影視業流水線「工人」，卻淘汰不了真的藝術家。

有個說法，AI模型產生內容，可能80%只是無聊重複人類經驗，但也可能有20%是可用的東西，如中式美學和賽博龐克如何融合，普通創作者可能需要極長時間思考，AI卻可能產生讓人意想不到的結果，這20%就是AI存在的意義，剩下的就讓有創造力的人補足。

有業者提到一個觀點，AI大模型進入影視業，不代表非專業人士也能輕鬆上手──如果想藉AI的力量創作劇本，也需要學習劇本公式和故事結構等基本知識，不具備這些的小白即便有AI超級助理也無濟於事。

回到AI是否能取代好萊塢的問題，其實好萊塢可能是最早對新技術「入侵」有反應的有優勢者，5月初數以千計好萊塢編劇工會（WGA）成員罷工示威，訴求之一便是抵制寫劇本用到AI。如果有天Gen-N真的出現，就會換成好萊塢導演跳出來抵制了。

（本文由品玩授權轉載；首圖來源：網頁截圖）

從這裡可透過《Google 新聞》追蹤 TechNews