Meta 釋出多模態 Llama 3.2 新模型，Meta AI 支援語音對話

Meta 藉一年一度的 Connect 2024 大會釋出最新 Llama 3.2 模型，直接取代上一版 Llama 3.1。

Llama 3.2

Meta 新推出多模態的 Llama 3.2 模型，繼續採行開源 AI 政策，這也是 Meta 第一款主要的視覺模型，同時理解圖像和文字。為在 Llama 增加圖像支援，Meta 訓練一組權重轉換器（Adapter weights），這些權重可與現有的 80 億和 700 億參數的純文字模型整合，建立同時理解圖像的 110 億和 900 億參數模型。

Meta 還釋出輕量的 Llama 3.2 10 億和 30 億參數模型，這些版本經過最佳化，可在手機或智慧眼鏡上運作。

多模態的 Llama 可在多種雲端平台下載和使用，包括 Hugging Face、Microsoft Azure、Google Cloud、AWS；Llama 也為 Facebook、Instagram、Messenger、WhatsApp 上的 Meta AI 提供支援。

Meta AI

去年發表的 Meta AI，至今每月超過 4 億人使用，且在歐洲、台灣等市場尚未提供服務，這次在 Connect 2024 大會 Meta AI 獲得功能升級。

如同傳聞所言，Meta 為 Meta AI 新增語音功能，使用 Facebook、Instagram、Messenger、WhatsApp 可與 Meta AI 對話、獲得語音回應。不久後更能聽到奧卡菲娜（Awkwafina）、茱蒂丹契（Judi Dench）、約翰希南（John Cena）、基根麥可凱（Keegan-Michael Key）、克莉絲汀貝爾（Kristen Bell）這些好萊塢演員的語音回應，增添使用樂趣。

為了讓人們在 Instagram 和 Facebook 影片看到更多母語發音的內容，Meta 正在測試影片自動配音和唇形同步功能，與少數 Instagram 創作者合作測試，初期支援英語和西班牙語。值得關注的是，Meta 技術已能做到這個程度，不免令人擔心萬一技術遭到不法濫用，會不會快速衍生出更多詐騙影片和不實資訊在網路上傳播。

最後，Meta 也為 AI 編輯工具增添功能，Meta AI 現在不僅能處理視覺資訊，用戶上傳照片後可以提出關於照片的問題。比方說，拍攝當地地標的照片並詢問歷史，或上傳壯麗的山景照片了解可以走的健行路線。不只如此，透過簡單的文字提示就能編輯照片，新增、更改或移除照片中的元素，比以往只能編輯 AI 生成圖像的功能更進階。