輸入文字就能生成高解析圖片!OpenAI 發表新版 DALL·E 2 AI 系統

作者 | 發布日期 2022 年 04 月 10 日 10:30 | 分類 AI 人工智慧 line share follow us in feedly line share
輸入文字就能生成高解析圖片!OpenAI 發表新版 DALL·E 2 AI 系統


AI 人工智慧的發展一日千里,並在許多方面展現超越人類的能耐,AI 不但打敗了世界棋王,也擊潰電競冠軍團隊(例如,Open AI 透過自家開發的 Bots 讓《Dota 2》遊戲頂尖高手在一場表演賽中首嘗敗北的滋味)。不僅如此,AI 還會寫文章,由 OpenAI 研究實驗室推出的 GPT-2 及 GPT-3 文字產生預訓練語言模型,因為能書寫出媲美人類文筆的文章,因而淪為撰寫假新聞的利器。如今,OpenAI 推出新一代的 DALL·E 2 系統,只要透過一段描述文字便能叫 AI 幫你產生各種圖片。 

去年 1 月 Open AI 推出基於 GPT-2/GPT-3 語言模型與 CLIP 影像辨識系統的 DALL·E,可將使用者輸入文字轉變成生動的超現實主義圖片。例如,使用者可以透過文字描述,要求 DALL·E 產生一張太空人在外太空騎馬的圖片,或是兩隻泰迪熊在月球上致力新 AI 研究的圖片,所以其超現實的程度甚至媲美超現實主義畫家達利(Salvador Dalí)。「DALL·E」這個字就是達利與迪士尼電影《瓦力》(WALL-E)機器人這兩個名字的組合。

但第一代的 DALL·E 圖片畫素只有 256×256,如今第二代的 DALL·E 2 圖片畫質可達 1024×1024,所以解析度與低延遲的表現更勝一籌。如今 DALL·E 2 更新了 CLIP 系統,並改名叫 unCLIP。該新系統支援名為擴散作用(diffusion)的處理程式,該程式會先從隨機點形成的圖案開始,一旦取得更具體的描述重點後,會漸近地轉變成圖片。

除了產生新圖片外,使用者還可透過 DALL·E 2 局部變更現有圖片中的一部分,例如在水池中新增一隻鴨子或去除某個物件,系統同時會將陰影、反光及材質等因素納入考量。使用者還可以根據原始圖片,發揮創意地額外產生不同風格、內容或角度的變體圖片。

如同語言模型會被拿來產生假新聞一樣,DALL·E 2 之類的圖片產生工具也有可能遭到濫用。對此,OpenAI 提供了一些到位的保護機制,包括使用者無法根據姓名生成人像照,也無法生成或上傳令人反感的內容。再者,除了仇恨、騷擾、暴力、自殘、裸露及非法活動等主題嚴禁涉及外,也禁止產生包括假新聞、政局、醫療乃至疾病相關的圖片。

未來,Open AI 有可能不會直接公開推出 DALL·E 2,而會提供給第三方 App 使用。

(首圖來源:OpenAI