影像生成模型 Veo 和圖像生成模型 Imagen 3 日前登上 Google 的 Vertex AI 平台,提供企業客戶加以運用。負責開發的 Google DeepMind 16 日進一步發表 Veo 2 新模型和最新版本的 Imagen 3。
Veo 2 & Imagen 3
Veo 2 對現實世界的物理原理以及人類動作和表情的細微差異有更深入的理解,有助於提高生成影像的整體細節和真實感。
Google DeepMind 指出,Veo 2 理解電影拍攝的獨特語言,用戶能夠指定風格類型、拍攝鏡頭、電影效果等。如果用戶需要一顆滑過場景中央的低角度鏡頭,或者一顆觀察科學家使用顯微鏡的臉部特寫鏡頭,Veo 2 皆能滿足特定需求;甚至在文字提示寫道「18mm 鏡頭」,Veo 2 知道如何模擬這顆廣角鏡頭來拍攝,或在文字提示加入淺景深,可聚焦在拍攝對象並模糊背景。不只如此,Veo 2 支援最高 4K 解析度,生成影像長度增長至數分鐘。
影像生成模型可能有「幻覺」,產生不需要的細節,比方說多餘手指或意外物體等,Google 則強調 Veo 2 發生這類細節的頻率更低,使輸出影像更真實。此外,Veo 2 的生成影片包含一個肉眼看不見的 SynthID 數位浮水印,幫助辨識影像是否為 AI 生成,減少傳播不實資訊等狀況。
▲ Veo 2 產生的示範短片。
Google DeepMind 也改進 Imagen 3 推出最新版本,能夠產生更明亮、構圖更好的圖像,它能準確變化出多種藝術風格,從寫實派、印象派再到動畫風格都有,產生更豐富的圖像細節和紋理。
Google 將 Veo 2 導入 Google Labs 的影像生成工具 VideoFX,同時擴大存取模型的用戶數量,還計劃明年將 Veo 2 拓展至 YouTube Shorts 及其他產品。至於 Imagen 3 最新版本導入圖像生成工具 ImageFX,提供給全球 100 多個國家的用戶。
值得一提的是,OpenAI Sora 模型上週正式釋出,能夠產生速度更快、品質更高的影像,目前優先提供給美國及部分國家的 ChatGPT Plus / Pro 付費用戶。面對影像生成競賽,Google 加快腳步來與 OpenAI 競爭。
Whisk
Whisk 是 Google Labs 最新實驗的新工具,可讓用戶根據自己想要的主題、場景及風格進行圖像生成,將許多元素組合在一起或重新設計,創造出獨特的東西。
Whisk 運作原理是結合 Imagen 3 最新版本與 Gemini 視覺理解和描述功能,Gemini 主動描述圖像變成詳細的文字提示,再輸入 Imagen 3 進行圖像生成,於是打造出這項新工具,目前先提供美國用戶使用。
▲ Google Labs 推出新工具 Whisk。
(首圖來源:Google Blog)