Google I/O 2024 懶人包:Project Astra 探索 AI 代理、Veo 影像生成、第六代 TPU

作者 | 發布日期 2024 年 05 月 15 日 5:10 | 分類 AI 人工智慧 , Google , 晶片 line share follow us in feedly line share
Google I/O 2024 懶人包:Project Astra 探索 AI 代理、Veo 影像生成、第六代 TPU


隨著 Google I/O 2024 開發者大會首日主題演講告一段落,讓我們快速了解這次 Google 發展 AI 的最新成果、結合旗下服務如何應用,以及開發 AI 的全新專案。

Gemini 1.5 Pro、Gemini 1.5 Flash

Gemini 1.5 Pro 模型有超過 150 萬開發者使用,改良版本正提供給全球開發者。此外,支援 1M token 上下文長度的 Gemini 1.5 Pro 優先提供給 Gemini Advanced 訂閱用戶使用,Google 更擴大 Gemini 1.5 Pro 支援 2M token 上下文長度,提供開發者預覽。

新推出的輕量級模型 Gemini 1.5 Flash 速度快、低延遲且保有高性能,支援 1M token 上下文長度。

Project Astra

Google DeepMind 執行長哈薩比斯(Demis Hassabis)提出 Project Astra,探索 AI 代理(AI agents)如何為日常生活提供幫助。示範過程測試人員與多模態 Gemini 模型所支援的 AI 代理原型產品進行互動,利用 Pixel 手機鏡頭對準目標,詢問 AI 代理看到什麼並回答問題,甚至還使用搭載鏡頭的智慧眼鏡原型機,是否成為未來硬體新品值得關注,Google DeepMind 計劃在 AI Sandbox Area 的環境下進行測試這項專案。

Gemini App

Gemini App 新功能 Gemini Live 將結合 Project Astra,可開啟手機鏡頭與 Gemini 助理一問一答。Gemini App 還能設定自己的 Gem,例如建立個人專屬的瑜伽老師、微積分老師。

Imagen 3、Veo

下一代圖像模型 Imagen 3 的視覺效果納入更多小細節,Google DeepMind 也與 YouTube 合作,為音樂人打造 Music AI Sandbox 的 AI 創作工具。

全新影像生成模型 Veo 能以文字轉影像,產生超過 60 秒、1080p 畫質的短片,預期成為 OpenAI Sora 競爭對手。

Google 搜尋

Google 為搜尋帶來新的多步驟推理功能,它將一個問題分解成多個部分,並找出要解決的問題及按什麼順序解決,過去需要幾分鐘甚至幾小時的搜尋和整理,未來只要幾秒鐘就能完成。

借助 Gemini 的搜尋新功能 AI Overviews 今日起開始向美國用戶推出,很快也向更多國家提供服務。

Google Workspace

Google Workspace 以側邊欄形式加入 Gemini 提升生產力,並不斷解鎖新功能,例如 AI Teammate 可從 Gmail、Meet 等歸納、排序工作重要資訊。

第六代 TPU

第六代 TPU 名為 Trillium,今年稍晚提供給 Google Cloud 客戶選用。此外,Trillium 搭配專為資料中心設計的自研處理器 Axion 和 NVIDIA Blackwell GPU,預計 2025 年投入資料中心。

Android

畫圈搜尋可以處理更複雜的問題,例如解決數學難題。借助 Gemini Nano,一旦偵測到可疑來電,比方說通話內容被要求提供身分證字號或銀行帳戶等,通話過程會即時發出警示聲和通知,這部分只在手機上完成處理。

(首圖來源:影片截圖)