Google 新模型釋出,AI 模仿人類使用瀏覽器、填寫表單

作者 | 發布日期 2025 年 10 月 09 日 11:34 | 分類 AI 人工智慧 , Gemini , Google line share Linkedin share follow us in feedly line share
Loading...
Google 新模型釋出,AI 模仿人類使用瀏覽器、填寫表單

Google 推出 Gemini 2.5 Computer Use 模型,以 Gemini 2.5 Pro 的視覺理解和推理能力為基礎所開發的專用模型,可支援代理程式在原本為人類設計的網路介面上進行操作,目前透過 Gemini API 提供預覽版本。

儘管 AI 模型可以透過結構化 API 與軟體互動、完成指令,但許多任務仍需要與圖形使用者介面互動,例如填寫表單並送出。要完成這樣的任務,代理程式必須像人類一樣瀏覽網站或應用程式,過程中有點擊、輸入等動作。對於打造強大且通用的代理程式而言,能夠做到填寫表單、操作下拉選單與篩選器等互動元素,並在需要身分登入的情況下進行操作,是關鍵的一步。

於是 Gemini 2.5 Computer Use 模型為此而生,它的核心能力透過 Gemini API 新增的「computer_use」工具公開,並在一個迴圈內運行,該工具的輸入在於使用者請求、環境的截圖以及近期操作的歷史紀錄。這款模型可用於網路介面測試,或在無 API 或其他直接連接的情況下操作僅供人類使用的網路介面。

▲ Gemini 2.5 Computer Use 模型運作流程。

▲ Google 示範影片展示「computer_use」工具的運作,並強調影片播放是快轉 3 倍。

Gemini 2.5 Computer Use 模型推出時間點恰好碰上 OpenAI 開發者大會,而 OpenAI 已打造一套自主代理系統 ChatGPT Agent,另一競爭對手 Anthropic 去年已釋出具備 computer use 功能的 Claude 模型版本,看來都走上開發通用代理程式的必經之路。

但與 OpenAI、Anthropic 做法不同的是,Google 的 Gemini 2.5 Computer Use 模型只能存取瀏覽器,而非整個電腦使用環境。Google 指出這款模型目前尚未最佳化至桌面作業系統層級的控制,僅支援 13 種瀏覽器操作,包括開啟瀏覽器、輸入文字等。Google 還強調,這款模型在多項 Web 和行動控制的基準測試展現強大性能。

(圖片來源:Google Blog

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》