Midjourney V5 太炸裂,AI 繪畫再無 Bug?「有圖有真相」時代徹底過去

作者 | 發布日期 2023 年 04 月 01 日 12:00 | 分類 AI 人工智慧 , 數位內容 , 網路 line share follow us in feedly line share
Midjourney V5 太炸裂,AI 繪畫再無 Bug?「有圖有真相」時代徹底過去


幾個月來以 ChatGPT 為首的聊天機器人攪得科技界滿城風雨,大眾忙著跟各家 AI 聊天,叫它們寫信、寫程式碼、寫詩。當語言模型大跨步前進,生成式 AI(AIGC)另一個重要分支──繪圖,也完全沒閒著。

去年拿下藝術比賽大獎而聲名大噪的Midjourney,近期熱度堪比OpenAI。Midjourney V4去年底幾乎和ChatGPT同期上線,GPT-4推出後,Midjourney也於3月16日飛速推出第五版,此次更新堪稱「炸裂」。

一週來各種Midjourney產生神圖層出不窮,中國足球奪冠、川普插秧、教皇做DJ、異形下凡……只要敢想AI就敢畫,且隨便拿一張都能以假亂真。但可能AI繪圖太真實,引起太多爭議,且太多新用戶湧入導致伺服器不堪重負,3月28日Midjourney宣布關閉免費帳號。

另一方面,大眾瘋狂追星同時,另一些人嘗試把ChatGPT和Midjourney結合,人類構思、AI執行的「人機合作」作品逐漸顯露商業化輪廓。

當圖片進化到照片:AI創造的平行世界

愛因斯坦沒有去實驗室,而是頂著代表性鳥窩頭在音樂節狂歡。

馬斯克沒有在21世紀製造火箭和電動車,而是穿越到蘇聯工廠,當了真正的「鋼鐵人」(工人)。

這種世界怎麼樣?以上無比真實的照片,不是誰用大量時間PS,而是很多普通人動動手指頭、打幾個關鍵字,人工智慧十幾秒內就自動產生的。

以假亂真世界的幕後推手就是Midjourney AI產生圖片工具,在AIGC繪圖領域,MidJourney是比OpenAI還神奇的存在。Midjourney沒有任何巨頭重金支持,為自籌資金的獨立研究實驗室,發起人是兩次拒絕蘋果收購的Leap Motion創辦人David Holz,全職員工11人。這樣的超小型團隊,卻是AI繪圖領域最炙手可熱的明星,甚至將OpenAI DALL‧E、Stable Diffusion、NVIDIA GauGAN2等都甩在身後。

比肩GPT的更新速度,驚歎和爭議相繼到來

Midjourney更新速度相較OpenAI有過之而無不及。去年3月第一版上線,4月火速更新第二版,接著7月上線Open Beta V3版本開放大眾,之後以獨特藝術性風格吸引眾多用戶,最知名就是下面人類給提示詞、AI創作,與人類藝術家同台比賽後奪得冠軍的油畫。

▲ Midjourney產生的作品〈Théâtre d′Opéra Spatial〉。(Source:Jason M. Allen / Midjourney, CC0, via Wikimedia Commons)

Midjourney紅了以後也沒有停下腳步,11月又推出第四版,增加更多風格;接著3月Midjourney V5版登場。此次V5更新之所以又引發大量關注,主要是解決一個技術難題和完成跨越性突破。

技術難題指的是「手指」。

要AI畫人,手是看起來簡單卻出奇複雜的任務。AI訓練圖庫手往往都不是重點,人們握手、牽手、鼓掌等不同狀態手都形態各異,很難形成標準模版,造成AI學習難度激增。即使對人類來說,畫手也是困難點之一。手的幾何形狀複雜,並沒有標準線條或形狀,關節皺紋和褶皺、手掌陰影等細節非常多,且每人手都長不一樣,獨一無二,無法套用樣本。

因此正確並精細畫手對所有AI工具都很困難,Midjourney V5之前,業界AI繪畫工具都無法畫好。但Midjourney V5完美解決了問題。不僅告別六指或畸形,還能結合人物特點畫出不同狀態和年齡的手部細節,就連光影下的手指紋路也完美呈現。

(Source:mpost

除了克服手指難題,Midjourney V5跨越性突破是產生照片級圖片,還是攝影大師拍的。V5之前,Midjourney繪圖總體以卡通或超現實風格為主,但V5版能支援真實、抽象、油畫等更多風格,解析度比上一版提高2倍。此次寫實風格上線,直接到很多攝影師感嘆「攝影學不存在了」的地步。如「1990年代走在街上的模特兒」主題,Midjourney完美畫出真假難辨的照片。

▲ Twitter網友Nick St. Pierre的時尚服裝系列。(Source:左上右上下圖

以「發生颶風的新聞報導」為主題,無中生有還原災難現場等。

以上範例可看出,Midjourney寫實圖片並不限某種固定風格,而會根據描述場景和想要風格智慧化調整色調、畫素、鏡頭語言等。最近Midjourney很多圖片,甚至達到肉眼無法辨別真偽的程度。真有媒體把川普被捕圖當成真實照片,意外寫成假新聞。此外,Midjourney提示詞審核不嚴格,故有產生大量有害照片的風險。Midjourney也在加強AI產成內容的監管和審核。

如果從技術角度看,Midjourney進步度讓人驚豔讚歎。但因照片太真實和新用戶太多,3月28日Midjourney宣布關閉免費帳號。分析認為,此舉也是為了防止更多離譜「照片」出現,擾亂現實世界和散布有害訊息。

ChatGPT+Midjourney強強聯手,AI作品走向商業化應用

MidJourney仍經過Discord使用,方法還是很簡單,輸入文字和參數描述即可。還支援用戶上傳圖片請AI修改。完整Midjourney「咒語」示範如下:

A man in futuristic armor with cyberpunk details(想要圖片的文字描述,可增加更多細節),shot on Canon R6 with 50mm f1.2(風格描述,可要求什麼設備拍攝、哪位知名藝術家或攝影師風格),–v 5(使用第五版技術)–ar 4:6(畫面比例,V5版可自定義任何比例),–iw 1(輸入參考圖片的權重佔比)

雖然咒語構成不複雜,但很多只有模糊想法的普通用戶要讓Midjourney畫出自己想要的圖片仍很困難,於是ChatGPT也來參一腳了。

ChatGPT能有什麼作用?可先模糊描述構想,讓ChatGPT拓展成細節較多的畫面描述,接著叫它提出關鍵詞。然後將Midjourney提示語法構成告訴ChatGPT,再幾次訓練讓ChatGPT記住如何透過關鍵詞創建Midjourney命令語法。之後只需複製ChatGPT寫好的指令,貼到Midjourney輸入框即可產生圖片,如果不滿意還可讓ChatGPT再修改提示詞。

已有很多人嘗試將ChatGPT和Midjourney結合結果用於工作,如電商不再需要花大錢找攝影師、美術設計師,只需將產品圖片和提示詞餵給AI工具,就能產生商業大片。

甚至也不用找模特兒拍照了,直接用AI產生就行。還有人用在室內設計,做網站、產生宣傳圖等。可預見的是,ChatGPT和Midjourney合作可能僅是AI商業化應用的開端。

隨著AI技術快速發展,各種工具出現讓AI應用範圍等比指數擴大。設計、電商、廣告、遊戲、影視等各領域都湧現許多例子,娛樂性大大增強同時,全新機遇也打開了。

(本文由 品玩 授權轉載;首圖來源:Image by macrovector on Freepik)

延伸閱讀: