AI(人工智慧)不太讓人興奮有段時間了,人們雖躲不開,但也發覺無論 AI 技術進步或商用似乎都遇到瓶頸。已經很多年沒有像 AlphaGo 那時驚豔,業界也沒有像語音助理普及時的機會,甚至許多投資人沒什麼新鮮故事可用時,才不情願轉身回頭看看 AI 界。
不過就在全人類忙著競爭的2022年,AI又經歷近年來最大進化。
突然翻紅
10月18日因推出Stable Diffusion文字─圖像AI產生模型大紅的人工智慧公司Stability.Ai,宣布完成1.01億美元種子輪融資,估值達10億美元,成為獨角獸新創,距成立僅兩年。即便以科技網路產業發展標準看,Stability.Ai成長速度也很驚人,是今年全球AI產業爆發式增長的縮影,旗下Stable Diffusion開源模型風靡全球不到兩個月。
疾風驟雨的進化堪稱革命,尤其全球經濟轉弱的背景下,與所有革命一樣,AI革命也不是一夕間成功。
人們一直有個夢想,即用AI技術拓展人類智慧、知識和創造力的邊界,但人腦複雜結構的學習能力遠超過構建AI的能力,於是AI只能透過各種特定深度學習模型單點突破特定領域,如AlphaGo學圍棋,又如天文大數據幫助尋找脈衝星。
AIGC即基於AI能力的內容創作(包括文字、圖片和影片),也是重要類別,今年以前囿於核心技術局限性,這領域一直不溫不火,因AI並沒有點石成金法術,不具人類平空創造的能力。AI深度學習訓練並不是有自我意識的學習,而是收集大量樣本讓AI總結規律,根據人類指令再生產內容,同時受核心演算法、硬體條件、資料庫樣本等多方限制。
▲ 2018年神經網路產生的作品,研究員Robbie Barrat用大量裸體繪畫(主要是女性)訓練而成。(Source:Robbie Barrat)
今年以前AIGC領域使用最多的演算法模型名為對抗生成網路GAN(Generative adversarial networks),顧名思義就是讓AI兩個程式互比,產生最接近人類心中的正確形象。但這演算法有個嚴重問題,為程式比較標準是現成樣本,產生內容是無限接近模仿已有內容,而模仿,代表AI無法自己創作。
(Source:Google Developers)
GAN的缺點最終被Diffusion擴散化模型克服,就是今年陸續湧現的Stable Diffusion開源模型等眾多AIGC圖片產生模型的技術核心。
Diffusion擴散化模型原理類似幫照片去雜訊,學習過程理解有意義的圖片如何產生,因此Diffusion模型產生圖片比GAN模型精確度更高,更符合人類視覺和審美邏輯,同時樣本數量和深度學習時長累積,Diffusion模型展現出對藝術表達風格更佳的模仿能力。
(Source:Towards Data Science)
今年初引起廣泛關注的Disco Diffusion到DALL‧E 2、Midjourney等都是基於Diffusion模型,拿到融資的Stable Diffusion最受歡迎。Stability.Ai擁護科技社群氛圍和認同技術中立原則,主動開放原始碼,不僅方便人們在終端運算(普通消費級顯卡就能滿足Stable Diffusion硬體要求),還有魔法般的體驗:打開網址,輸入想要圖片的關鍵字,等幾分鐘,模型就會產生完成度非常高的圖像,讓普通人使用最尖端AI技術的門檻降到最低,上線後僅官方平台DreamStudio製作的生成圖片就超過1.7兆張。
AIGC沉寂許久的革命火種,瞬間燎原。
絢爛的藍海
以Stability.Ai為代表的AIGC圖片產生模型如此短時間發展就極為成熟,預告從傳統設計繪圖、插畫、遊戲視覺、電子商務等領域到元宇宙和虛擬實境,都有巨大發展潛力。
▲ 輸入「AI wins」後DreamStudio基於Stable Diffusion產生的圖像。
想像一下,未來VR / AR虛擬世界,腦海想到的畫面可藉AI幫助即時渲染,將對娛樂和取得資訊的方式產生多大顛覆?
但這不是市場經濟大環境極低迷之際投贊成票的全部原因,潛在商業性固然吸引人,但更值得投資的是AI技術。革命尚未完結,下一章已向我們走來,就是文字產生影片。從本質講,影片就是靜態圖片連續播放,隨著AI圖片產生技術日益成熟,許多人開始專注產生影片,9月Meta和Google先後公佈AIGC最前線領域的新成果。
Meta模型名為Make-A-Video,學習大量文本─圖像組合樣本和無標記影片理解真實世界物體運動邏輯,Make-A-Video能初步在構建圖像的基礎上讓圖動起來,同時有理解3D結構的能力。
(Source:論文)
imagen video模型則透過稱為聯級擴散系列模型產生影片。先以基礎擴散模型產生解析度較低影片,然後再用一系列時間、空間超解析度模型提升解析度和幀數。
橫向比較,imagen解析度1,280×768高於Make-A-Video,長度也略長。
(Source:論文)
突破還不只這些,另一個Phenaki AI影片產生模型(也來自Google團隊)公布根據文本產生可變時長影片的技術,也就是從文本提煉故事情節並轉為影片的能力。Phenaki示範影片基於幾百個單詞組成一連串有前後邏輯的指令,產生一支2分多鐘影片,充滿鏡頭感、豐富情節和轉場的故事雛形,假以時日勢必對影視相關工作如網路平台、電視電影等產生不小衝擊。
產生影片模型尚在起步階段,運動細節、畫面精細度、不同物體和人的互動等還顯稚嫩,從解析度到畫質也有濃濃人工智慧痕跡,然而回想AI圖片產生模型同樣經歷過從群嘲到逆襲,未嘗不是AIGC革命下一個高潮即將來臨的徵兆。
劇變下的爭議
劇烈變化總是伴隨爭議,以Stable Diffusion為首的AIGC革命「圖像階段」也如此,筆者試著歸納成幾個問題並簡單回答。
1. AI產生內容的版權問題該如何界定?
中國著作權法規定只有自然人或組織可認定為作者,因此AI產生內容沒有著作權實體。如果沒有更多協定,AI產生內容可任意使用,商用也可以。Midjourney、DALL‧E等都明確表示用戶擁有產生作品的所有權。
▲ stability.ai回答版權問題。
很多AI產生技術深度學習訓練的資料庫可能含版權內容,但導致使用者有侵權可能性非常低,因產生內容充滿高度隨機和不確定性,即使有版權爭議,舉證也極度困難。
2. AI產生內容是否有藝術性? 如果有,該如何評定?
AI產生內容是否有藝術性半年前還是個無聊問題,但〈Théâtre d’Opéra Spatial〉(太空歌劇院)得獎後,人們開始談論。總體來說,AI產生內容不是創作,受模型演算法和資料庫樣本容量影響,這也是許多人聲稱AI產生內容「沒有靈魂」的原因。
然而僅把AI產生技術看成純工具也不公平,因它不僅會模仿,且演算法和樣本一起提供人類可能想不到的視角。現有AI產生圖像技術已讓人們進入圖像創作的門檻變得極低,藝術性欣賞或許該從更細角度入手,如NFT之於傳統藝術品,價值需經市場檢驗,藝術品市場也處於理解和接受的初階。
3. AIGC革命的「圖像階段」對繪圖工作者和藝術創作者來說代表什麼?
AI產生技術「平民化」,將來中低階繪圖和市場會被AI取代,大批腰部以下繪畫工作者、插畫師、設計師等都會失業。若AI產生圖像越來越豐富逼真,算根本上解構商業圖庫賴以維生的經營模式──如果電腦可產生圖片,誰要花錢買圖庫?
▲ Gettyimages的AI產生圖像使用聲明。
但AI產生技術同樣拓展人們對繪畫工具的理解。對藝術創作者來說,AI產生技術有利基於自身理念(而不是技術)創造更多更具創造性的作品。未來將是創作者創造力的比拚,因AI可「消除外行人的表達障礙」(Björn Ommer 所說,他的團隊開發了Stable Diffusion基礎演算法)。
4. AI產生內容如何監管,防止假訊息傳播?
秉持技術中立態度的研究者如Stability.Ai會盡量減少控制干預,開放和充分討論的社群將逐步形成資訊傳播的監督機制。「消費者需為如何使用技術負責,包括道德和法律性。」CEO Emad Mostaque受訪時說。
儘管深度學習資料庫多經嚴格篩選,篩掉色情、暴力、恐怖等內容,但刻板印象、種族歧視、性別歧視等問題無法根除,更重要的是,如何界定偏見對倫理學仍是頗具爭議的問題,正因如此,Google決定排除風險前延後發表imagen video模型,許多已發表模型選擇為產生作品加上不可去除的浮水印避免爭議。
AIGC革命如火如荼進行,不是未來式,而是現在進行式。我們都身處其中。現在就是未來。
(本文由 品玩 授權轉載;首圖來源:Stability.Ai)