打敗 Midjourney,Google 前員工做的 AI 產品憑什麼彎道超車

作者 | 發布日期 2024 年 04 月 05 日 9:00 | 分類 AI 人工智慧 , 軟體、系統 line share follow us in feedly line share
打敗 Midjourney,Google 前員工做的 AI 產品憑什麼彎道超車


沒有誰能一直稱王,但加上抬頭誰都有稱王的機會。AI 文生圖,還能玩出什麼新花樣?

已經群雄割據的紅海,頭部被 Midjourney、DALL·E、Stable Diffusion 等佔據,其餘還能讓人眼前一亮的產品並不多,但仍有黑馬殺出:Ideogram,Google 前工程師創立,矽谷 AI 大神投資,去年 8 月面世,2 月底發表最新模型。

Ideogram 特別在於,擅長產生含文字的圖片,恰好是幾大巨頭都在改善的難題。事實證明,從別人跌倒的地方爬起來,不失為彎道超車方法之一。

能「畫圖」和「攝影」,但 AI 可能還是「文盲」

讓 AI 精準產生文字向來是痛點,哪怕產生人物和風景相機拍的,如亂碼扭曲文字,瞬間讓 AI 原形畢露。

▲ Midjourney v5.2 產生的錯誤文字。

Ideogram 站出來表示,拒絕讓 AI 繼續當「文盲」,不妨先從 AI 開始。Ideogram 使用門檻很低,打開官網登錄就能用,介面看起來也清爽不複雜,產生圖片步驟不多,輸入框填入提示詞,再根據想要的效果,勾選圖片長寬比,以及照片、海報或 3D 渲染等樣式。

Ideogram 還考慮到人類可能是提示詞「苦手」,2 月推出「魔法提示」,就像內建 ChatGPT,幫忙想提示詞,以 AI 拿捏同類心思。含文字圖片有哪些?產品標誌、T 恤印花、書籍封面、電影海報……先來個入門級考驗,讓幾個人舉起寫著動物名稱的指示牌,乍看文字對了,但臉和手不太正常,兩者相互抵消,原來缺點沒有消失,只是轉移。

如果只讓 Ideogram 寫字,效果便令人驚豔。叫 AI 產生馬斯克的經典句子「我寧願樂觀而錯誤,也不願悲觀而正確」,除了「W」有瑕疵,其他單字都拼對了,字體活潑,1970 後馬斯克不知道能否接受,但應能讓小藍鳥變成黑白 X 的他滿意。

再拿經典諺語「只工作不玩耍,聰明孩子也變傻」為考題,雖然提示詞強調印表機字體,但 Ideogram 沒做到。看來光用提示詞還不能定義字體,只能取近似值。

之後命令 AI 為叫 Coffee AI 的 AI 新創設計 Logo,主體是電路圖咖啡杯,右上角有機器人咖啡師,公司名稱為粗體大寫字母,排版簡單克制,以 Logo 看很直覺,但總體來說意料中,很難讓甲方心動拍板。

該給 AI 增加難度了,句子更長,設計要求更高。要求 Ideogram 為兒童繪本設計內頁,不僅要在醒目位置寫著「穿襪子的狐狸和戴禮帽的兔子」,底部還得標註「匿名」。對這兩行文字,Ideogram 基本完成任務,使用手繪字體和粉筆塗鴉,甚至搭配符合題意的插圖,繪本味道對了,但錯誤也很顯眼,「in」這單字有點問題,兔子長得像狐狸還和狐狸稱兄道弟。

Ideogram 同樣可以做電影海報,拿中國爆紅的〈周處除三害〉測試,提示詞雜糅典故和電影,背景用俠客剪影、海、山意象,文字部分參考電影英文名:豬、蛇和鴿子。除了漏了一個「the」,最終效果還不錯,融合古典形象和現代字體,鴿子塗鴉堪稱點睛之筆,但更偏西洋奇幻風,讓人覺得陌生,很難聯想到電影劇情。

體驗後可發現 Ideogram 文字出錯機率還是不小,有時候產生兩三次才能得到一字不差的理想結果,就算文本對了,人物臉和手指經常翻車,可能還會加些奇怪的小動作,隨機產生無意義且扭曲的文字,打臉自己。

▲ 小字糊成一團。

但總體來說,Ideogram 讓人驚喜,可以寫對長句,且用合適字體和排版配合畫面氣氛,儘管還不會產生中文,但如鬼畫符的幾個字非常服貼衣服褶皺。

▲ 這四個字其實是「恭喜發財」。

瑕不掩瑜,Ideogram 就業場景夠很多了,設計 Logo、海報、T 恤圖案時,都可當作靈感參考和創意輔助,以前擔心 AI 會「畫畫」和「攝影」,以後更怕 AI 有文化素養和設計能力。

審美不輸 Midjourney,還是表情符號神器

AI 進步以日計,可能一覺醒來世界就天翻地覆。雖然 Ideogram 說文字渲染能力最強,但對手也不服輸,未公開和開源的 Stable Diffusion 3 在 2 月宣布改善文字拼寫。

▲ Stable Diffusion 3 拼寫能力。

去年 12 月推出測試版的 Midjourney v6,是第一個有可靠文字產生功能的 Midjourney 版,不過要求也依然苛刻,除了必須把文字放在引號內,提示詞最好解釋文字的位置和書寫方式,並用到「印刷」「寫」等關鍵詞,一兩個詞的文字生成效果最好。

▲ Midjourney V6 的文字產生功能。

被追趕的 Ideogram 團隊不慌不忙,認為優勢在我,Ideogram 仍擁有更高準確率,且能處理複雜長句。Ideogram 系統評估也顯示 Ideogram 1.0 渲染文字準確性最高,與 DALL·E 3 等其他模型相比,錯誤率降低近兩倍。

光說不練,不如拿相同提示詞讓 Ideogram 1.0 和 Midjourney V6、DALL·E 3 同台競技。先比較文字準確度,要求 AI 繪製浮世繪風格日出插圖,〈亂世佳人〉的經典台詞「明天又是新的一天」放在合適位置,表現希望和新生。這次 Ideogram 完勝,拼寫準確,線條和色彩設計也很大膽出眾。

藝術細胞比較差的 DALL·E 竟然意外有質感,文字基本對了但沒完全對,畫風更抽象;Midjourney 不僅文字不準確,審美也不太行,甚至好像沒認真聽題目。

▲ 左為 DALL·E,右為 Midjourney。

二是比玩哏能力,Ideogram 特意提到產生表情符號的功能,藉助「魔法提示」,AI 自己發揮想像力寫提示詞,配上文案,讓圖片有感情色彩。想看 AI 能否產生打工貓表符,於是輸入提示詞:「畫有趣哏圖,關於一隻戴著領結和襯衫、在電腦前打字的淚流滿面貓,比喻人類打工辛苦」。

Ideogram 發揮腦洞,自己加上文案「貓也得工作」,美中不足的是多了個「have」,前爪指頭數也不對,看來 AI 不僅人手苦首,拿貓爪也沒轍。對比原版表情符號,算中規中矩。

▲ 左為網圖,右為 Ideogram。

Midjourney 的貓嚴肅且優雅,彷彿是財富自由的作家,看起來更像在拍雜誌寫真,但這滑鼠不知怎麼回事。

▲ 左為 Midjourney,右為 DALL·E。

DALL·E 情感最到位,畫風雖然隨意點,但粗糙有粗糙的好處,彷彿不是同圖層的淚水誇張到好笑,很適合當表情符號。三是複雜長提示詞的理解度,尤其提示詞元素是否齊全、位置是否準確,所以輸入較囉嗦的提示詞,規定各主體位置:

這是個有趣又超現實的場景,一隻舒適的狗懶洋洋躺在沙發上,享受心形牌寫著「超級明星」的地位。狗左邊是未來機器人在瘋狂拍照,右邊是太空人觀察這奇怪景象。房間裝飾充滿活力,有許多氣球和獎牌,增添天馬行空的氣氛。

Ideogram 整體構圖表現更好,幾個要點都有出現,心形牌、機器人、太空人、氣球和獎牌都有,雖然太空人手、獎牌字等細節有問題,Midjourney 更有藝術感,但要素缺失,又多了有的沒的裝飾,更有自己想法和個性?DALL·E 不僅要素遺失,細節出錯,還不好看。

▲ 上為 Midjourney,下為 DALL·E。

所以拋開文字,光看圖片品質 Ideogram 也不差,有時還原提示詞各物體空間關係,比其他 AI 更準確,使用體驗來說,Ideogram 速度也比 Midjourney 快,十幾秒就能完成四張圖片,甚至以業界評估規則,人類評估者對提示對齊、圖像連貫性、整體偏好和文本渲染品質方面,更喜歡 Ideogram 1.0,而不是 DALL·E 3 和 Midjourney V6。

哪怕不滿意 Ideogram 的圖,把它的魔法提示詞拿去 Midjourney 和 DALL·E 產圖,也比自己手搓更好,不失為最佳化提示詞的方法。沒人用我的 BGM 打敗我,但同提示詞餵給不同 AI,勝負還不一定。

Google 工程師創辦的明星公司

Ideogram 去年 8 月成立,今年 2 月推出最新模型 Ideogram 1.0。這又是明星公司,創始團隊共七人,來自 Google Brain、加州大學柏克萊分校、卡內基美隆大學和多倫多大學,四人是 Google 文產圖擴散模型 Imagen 研究論文作者。謹慎的 Google 經常推出產品時慢半拍,多次眼睜睜看著對手聲名大噪,聊天機器人被 ChatGPT 搶先,Imagen 也被 DALL·E 2 超車。

從工程師角度看,研究成果無法針對消費者應用並非好事,不少人離開,親自打造新產品,盡量開放使用,先積累用戶規模和口碑。Ideogram 一天 25 次提示詞免費額度,可能也是出於這種考慮。

市場很看好這產品,Ideogram 完成矽谷風投 a16z 領投的 8 千萬美元 A 輪融資,投資者還有 AI 大神,包括 Google 首席科學家 Jeff Dean、OpenAI 創始團隊成員 Andrej Karpathy。其實體驗很多 AI 產品後,不免有個疑問:怎麼定義產品好用?

▲ Ideogram 產生 T 恤圖案。

之前覺得好用的是外掛程式「沉浸式翻譯」,不像 Google 翻譯覆蓋原文,可中英文對照,不僅新聞網頁,X 資訊流、YouTube 字幕、PDF 檔都能用。Ideogram 似乎也很實用,一方面可更精準產生文字,並搭配各種風格圖片,另一方面也能無中生有,幫圖片配上適合文字,如表情符號。

雖然 Ideogram 結果很多不能直接用,但至少符合提示詞要求,文字大多可讀。Ideogram 寫實類圖片普通,但塗鴉、插圖、繪畫都不錯,藝術天賦可向 Midjourney 看齊。

▲ Ideogram 產生的塗鴉。

Ideogram 官網還有各種作品熱門排行榜。打開網站,彷彿誤入 IG 風圖片社群,提示詞也都能學習。當 AI 工具兼具創意、方便和好分享,就很容易讓人上癮,一天 25 次免費提示詞很快就會用完,焦急感和等 Suno 積分更新差不多。

如果是每月 7 美元或 16 美元會員,除了更多生成數,Ideogram 還提供圖像上傳和編輯器。圖像上傳指用戶上傳圖片,然後以 Remix 功能再創作。

▲ 左為原圖,右為輸出。

編輯器除了裁剪、縮放等一般功能,還有有趣的繪圖工具,用抽象圖產生圖片。 人類畫工粗糙勾勒各元素形狀、構圖、顏色等,AI 負責化腐朽為神奇。

Ideogram 能從腥風血雨裡殺出,好用當然最重要,同時定位也很準確,如果美學是最重要的標準,那 Midjourney 一騎絕塵。 雖然 DALL·E 時好時壞,但內建於 ChatGPT 使用方便,開源 Stable Diffusion 則很自由。

單論用戶規模,Ideogram 可能哪個都打不過,但放大優點,也能有穩定受眾,至少免費好用的 AI 產圖,Ideogram 整體品質領先,網頁使用方便,有免費額度,文本渲染強大,魔法提示功能和創作者社群提供創意和靈感。

文產圖模型遠非完美,仍努力還原物理世界,或向畫家和設計師看齊。之後更多的 Ideogram 或許仍能找到一席之地,這也是 AI 競爭的殘酷和魅力,不知道誰能笑到最後,但永遠有新人瞄準痛點崛起。

(本文由 愛范兒 授權轉載)