Meta 推出全新圖像生成 AI 模型 CM3leon 提升效率

除了大熱門生成式 AI 聊天機器人應用，圖像生成 AI 模型也在進步。Meta 最近公布新圖像生成 AI 模型 CM3leon，稱性能再提升。

Meta 新 CM3leon 是多模態基礎模型（Multi-Modal Model），輸入文字可產生圖像，以及反過來輸入圖像產生文字，可用於自動生成標題等場景。Meta 指之前文字產生圖像技術主要依賴擴散模型輸出圖像，CM3leon 是不同方法，使用基於標記的自回歸模型（Token-based Autoregressive Model）。

Meta〈擴展自回歸多模態模型〉論文解釋，擴散模型因強大性能和相對低計算成本，近來圖像產生占主導地位，相比以前基於標記的自回歸模型雖然也能產生強大結果，尤其是有更好全局圖像一致性，但訓練和推理成本要高許多。

這次 CM3leon 研發成果證明基於標記的自回歸模型也能比基於擴散模型的方法更有效率，文字產生圖像性能更強勁，訓練數據運算量比以前基於變換器法少 5 倍。