人類偽裝 Sora,怎麼成了流量密碼

作者 | 發布日期 2024 年 02 月 28 日 9:00 | 分類 AI 人工智慧 , 網路 line share follow us in feedly line share
人類偽裝 Sora,怎麼成了流量密碼


威爾史密斯再次貢獻了梗圖,上回是奧斯卡的一巴掌,這回是義大利麵的吃播。

2023年3月,一位Reddit網友用AI製作了威爾史密斯吃麵的搞笑影片,面目猙獰,五官變形,看得人胃口全無。2024年2月,OpenAI發布Sora的兩天後,威爾史密斯本尊在Instagram發布了一條吃麵的對比,人變帥了,進食動作也體面了。

 

在 Instagram 查看這則貼文

 

Will Smith(@willsmith)分享的貼文

你以為下半部的影片是由Sora生成的?不,麵是威爾史密斯真人親口吃的。

前腳被Sora的官方演示震撼,後腳看到這條動態,人們陷入了我是誰、我從哪裡來、我到哪裡去的人生懷疑。雖然Sora還沒有對外開放,但網路已經變得越來越荒謬了:AI影片越來越接近真實,越來越多真人影片假冒AI。

能不能殺死好萊塢不知道,Sora先把人類的大腦燒乾了

Sora穩定發揮的影片,我們或多或少都看過了,同時OpenAI也把翻車影片大方公布出來,其中有些在社交媒體熱度更高,尤其下面這個提示詞是「考古學家在沙漠發現一把普通的塑膠椅子,小心挖掘並除塵」的影片。

椅子好像是個會呼吸、有想法的異世界生物,不被重力和人力無法束縛,憑空出現、變形,還偷偷帶走了一個人類。這或許並非AI的錯,畢竟提示詞裡沒有寫明,他們是否在地球上。如果影片被分發到社群媒體,可能會打上這樣的標籤:#意識流、#超現實主義、#人類早期馴服野生椅子的珍貴影片。

OpenAI認真地解釋了為什麼出現bug:Sora未能將椅子建模為剛性物體,即外力作用下不改變形狀和體積的物體,所以導致物理交互不準確。

Sora這個摔杯子的影片,彷彿也是吃了毒蘑菇才能看見的藝術,杯子竟然無風自動,液體先像果凍一樣出現在玻璃杯外面才摔碎,每個步驟都在意料之外。

另外,還有倒著用跑步機的運動健將、吹不滅的生日蠟燭、憑空出現又消失的狼群……AI 在不經意間,做出了人腦和特效都想不到的事。

Sora官方宣布以來,AI大老們就在爭論它能否理解物理世界,OpenAI的技術報告沒有明確表態,只是提到,Sora可以模擬現實世界中的人、動物和環境的某些方面,但可能難以精確模擬複雜場景的物理原理,例如混淆左右、咬了餅乾後沒有咬痕。

趁AI還未進化到完全態,不妨腦洞大開。還不穩定的AI影片,完全可以做為靈異、懸疑、恐怖、幻想題材的素材庫,為創作提供新的靈感,越要掀牛頓棺材板的,表現得就越藝術。就像「挖掘椅子」和「摔杯子」,已經可以用到MV、廣告、電影、遊戲裡,看起來還是個大製作,效果縱然詭異,卻意外得很絲滑,完勝Bilibili的「學了五年動畫」系列。

儘管內容已經如此魔幻,還是有網友猶豫了一秒:「不露bug,我都懷疑它是拍的。」「這是在玩魔術嗎?」

這是因為,即使是Sora的翻車影片,時長、畫質、穩定性也依然能夠贏過Pika、Runway 等「前輩」。當其他工具生成的影片不過3到4秒、盡量保持單鏡頭穩定時,Sora把上限拉到了1分鐘,實現多鏡頭的無縫切換,相對準確地保持畫面主體和視覺風格的一致,彷彿會用鏡頭語言和敘事節奏說故事。

乍看之下,好像現場真的有攝影機跟拍,人、物體和場景都在三維空間裡移動,同個角色還能有多個視角。

有人開玩笑說,這是AI生成影片從「動圖」到「影片」的飛躍。翻車的Sora影片當然也可以算入其中,就像亂七八糟寫了一堆程式碼,但恰好能運行。360董事長周鴻禕在微博談到一個很有意思的觀點:Sora工作原理像人類的做夢,我們會夢到奇奇怪怪的東西,但依據的是我們在生活中眼睛看到的東西、積累的經驗,不用像影視工業那樣3D建模然後一幀幀地渲染。

從某個角度看,生成式AI確實像一個夢境機器,越來越接近人類的思維方式,用各種提示詞有概率地製造合理或不合理,不論對錯,它一定會給你一個答案。其實從ChatGPT開始,人們就想藉著AI將夢境落地,小紅書上有不少將夢境可視化的帖子,雖然無法真正還原腦海的效果,卻也將部分精神世界的幻影帶入了現實。

未來的Sora,可能更讓夢境或人類的創意生動起來,輸入文字、圖片或影片,就能「一鍵」加入光影變化、調整畫面角度甚至配上音效。好萊塢的精英會不會失業不知道,網友們已經躍躍欲試,腦洞也有了安置之處。

自嘲一敗塗地的人類,將模仿Sora當成流量密碼

翻車影片之外,Sora的其他影片乍見驚豔,但也經不住放大鏡式的審視。店鋪招牌的亂碼、貓咪的第五條腿、模特兒踏錯的步伐。Bug或許是AI和現實的最後一面牆,但人類自己想把它推倒。

雖然Sora還沒開放給大眾使用,但賣課和賣晶片的賺錢了,玩哏的網友們也找到了渾水摸魚的辦法,發明了一種新的引流方式。他們在社群媒體發布影片時,往文案裡加入「由Sora生成」和像模像樣的提示詞,偽裝成是AI製作的,就像威爾史密斯模仿AI如何模仿自己。各賽道的短影片博主都參與其中。曬萌寵的、打遊戲的、安利偶像單曲的、給產品打廣告的,真的不是給Sora就業靈感嗎?

其中最讓人真假難辨的當屬寶萊塢電影,印度警匪片的情節和特效尤其驚人,對人類來說太超前了,也讓物理學不存在了,連AI都要向他們拜師學藝。如果不是熱心群眾添加註釋,附上了11年前上傳的YouTube網址證明印度電影非人的先鋒性,誰也不敢打包票。

甚至連Netflix印度官方帳號也來湊熱鬧,從印度抗英神片《RRR》截取了個片段偽裝是Sora生成,按照印度大片一貫的浮誇,頭幾秒確實可能會騙到觀眾。

這些偽裝成AI的影片雖然是由人類演繹,AI混在其中也顯得平平無奇,但AI未必不能效仿。混淆視聽、自作自受,傷害的還是人類自己,猜疑已經出現了。網友開始擔心,當AI生成和真人實拍真的傻傻分不清楚,但自己沒做過什麼,卻可能「證據確鑿」。

這是懸疑英劇《真相捕捉》上演的劇情:情報機關為了讓罪犯定罪,偽造了監視錄影。他們認為,偽造監視錄影,只是將竊聽資料等非法證據,「重演」為合法證據,事情的確發生了,罪犯的確犯罪了。但是誰也不知道,使用科技的人會不會越界,從移花接木走向無中生有。

辨別AI的應對之法,也可能換個角度,被用來當作金蟬脫殼的妙計。因為AI不擅長畫手,所以之前有個哏圖是犯罪者戴著假手指犯罪,看起來有六根手指,就可以污衊監控畫面是AI生成、沒法作為呈堂證供。AI接近現實的同時,人類也假冒AI。AI偽造呈堂證供,也能被利用讓證據無效。

一個魔法打敗魔法的魔幻世界,可能真的要到來了。AI還無法主動作亂,打破信任的還得是人類自己。

AI還未必能模擬世界,但已經影響了我們看待世界的方式

關於AI讓真實與虛假更難分辨的問題,當我們說到Deepfake換臉時,其實已經討論太多了。Sora又能有什麼不一樣?

最近,OpenAI做了一個意想不到的舉動──開設TikTok帳號,上傳Sora的作品。OpenAI不僅為每個影片貼心地標註了AI生成,怕人們混淆現實,還附上了提示詞:「一段逼真的影片,展示了一隻可以在水下游過美麗珊瑚礁的蝴蝶」、「一片葉子的微距拍攝,顯示微小的火車在葉脈中移動」、「低至地面的攝影機密切跟蹤叢林中的螞蟻」……

這些影片混跡在真實的短影片中,配上了背景音樂,如果稍微不注意,手指滑得快了些,就可能被認為是真實的。網友們半開玩笑半認真地在OpenAI評論區囑咐:「你最好製作浮水印之類的東西,否則人類就注定要滅亡。」

Sora還沒落地,其實所有人都在猜測,影片內容從業者可能是最淡定的一批人,因為他們更加專業,也更懂商業化,Sora的Demo一堆問題,內容的一致性和準確性不夠,做不到甲方精細的要求,技術就很難被引入工業流程。但筆者不是很樂觀,AI影響的早已不只是真假,而是我們看待世界的方式,它並非直接代勞某個剪輯軟體、某個腳本、某個導演。

AI從業者@Kwebbelkop猜測,OpenAI目前只在TikTok發布AI短影片,可能是為了收集觀看次數等相關用戶數據,對模型進行來自人類反饋的微調,未來甚至再造一個AI版TikTok。

短影片的演算法已經非常能猜你喜歡了,如果再加上生成式AI,讓影片內容更加客製化,又會發生什麼事?

未來,我們的觀影體驗也可能發生質的變化,不依賴電影院和串流媒體,可以用大語言模型和影片生成模型決定故事內容和主演陣容。然而,OpenAI對AI產品的期待絕對不只是陪你聊天、製作影片,更深入的野心是讓AI學習人類的自然語言和世界的物理規律。就算局限在影片領域,就讓Sora能做粗糙的概念片,也已經很厲害了。製作影片的方式、內容的風格,甚至我們對內容的喜好,或許都會因為AI而改變。

先不說AI,幾乎人人持有的手機,其實已經影響了影片的拍攝和製作方式,讓人成為自己生活的導演。對著鏡頭邊說話邊化妝的美妝影片、展現個人生活片段的Vlog等,就是在這種影響之下,許多部落客在臥室用手機就能拍攝。短影片的井噴,也讓我們越來越習慣用手機上下滑動,耐心更少,注意力更分散。

儘管相較於Sora,Runway、Pika等影片產生工具能力有限,也已經有人結合Midjourney等圖片產生工具,用它們做了電影預告。因為穩定性較差,所以影片風格也有了取捨,以快速剪輯為主,搭配旁白,注重節奏感和視覺衝擊,但缺少人物的對話和更複雜的場景。

相比之下,Sora可以支援更複雜的場景、動作以及角色與周圍世界之間的互動。有人用Sora的樣片,再用AI語音工具ElevenLabs配音、用iMovie剪輯,就做出了一個更加流暢的、彷彿「一鏡到底」的「電影預告」。

Sora對外展示的兩類影片,大概可以分為兩種,一類是創意腦洞,太空人站在寒冷的星球、兩艘海盜船在咖啡中決鬥、卡通人物跳迪斯科,一類是接近現實,淘金熱時期的加州、火車車窗上的倒影、2056年尼日利亞的戶外。

火車車窗上的倒影,很像Vlog會拍攝的鏡頭。

奈及利亞的戶外,鏡頭從露天市場平移到城市景觀,也非常像新聞影片的空鏡,已經有人打算將數位人和這段影片結合。

拍攝甚至在有些時候顯得沒有必要了。Sora可以透過提示詞,直接製作某個旅遊景點的鳥瞰圖,和人類飛無人機的鏡頭相去不遠。我們的眼睛和大腦知道聖托里尼島長什麼樣,AI同樣也「知道」,那麼就可以交給AI代勞。

之前有個很有意思的比喻,這個世界就是個巨大的「地球online」,由太陽系開發的大型多人線上角色扮演遊戲,擁有最優秀的3D裸眼和VR系統。

OpenAI提出的「世界模擬器」的概念,某種程度上是把一切當作訊息輸入,汲取文字、圖像、影片,然後又輸出訊息,把文字變成繪畫,把圖片變成影片,彷彿「地球online」的主宰,但我們未必了解其中的原理,可能只是給出要求,然後得到結果。

這樣的未來應該還很遠,至少眼下,Sora的影片看多了,也會讓人覺得無聊,走在東京街頭的女性,眼睛裡沒有情感,感受不到人的氣息,但我們刷短片時有時也是這樣,世界需要精妙的電影,也接受巨大的冗餘,就像《駭客任務》主角的反抗也是設計好的。

AI參與感越來越強的未來將會到來。下次看到一個疑似的Bug,我們可能不會直接判斷是假的,我們或許像做閱讀理解一樣想,AI在這裡是不是有什麼用意。我們或許不會喜歡,但不得不接受。

(本文由 愛范兒 授權轉載;首圖來源:Unsplash