Google 新模型釋出，AI 模仿人類使用瀏覽器、填寫表單

Google 推出 Gemini 2.5 Computer Use 模型，以 Gemini 2.5 Pro 的視覺理解和推理能力為基礎所開發的專用模型，可支援代理程式在原本為人類設計的網路介面上進行操作，目前透過 Gemini API 提供預覽版本。

儘管 AI 模型可以透過結構化 API 與軟體互動、完成指令，但許多任務仍需要與圖形使用者介面互動，例如填寫表單並送出。要完成這樣的任務，代理程式必須像人類一樣瀏覽網站或應用程式，過程中有點擊、輸入等動作。對於打造強大且通用的代理程式而言，能夠做到填寫表單、操作下拉選單與篩選器等互動元素，並在需要身分登入的情況下進行操作，是關鍵的一步。

於是 Gemini 2.5 Computer Use 模型為此而生，它的核心能力透過 Gemini API 新增的「computer_use」工具公開，並在一個迴圈內運行，該工具的輸入在於使用者請求、環境的截圖以及近期操作的歷史紀錄。這款模型可用於網路介面測試，或在無 API 或其他直接連接的情況下操作僅供人類使用的網路介面。

▲ Gemini 2.5 Computer Use 模型運作流程。

▲ Google 示範影片展示「computer_use」工具的運作，並強調影片播放是快轉 3 倍。

Gemini 2.5 Computer Use 模型推出時間點恰好碰上 OpenAI 開發者大會，而 OpenAI 已打造一套自主代理系統 ChatGPT Agent，另一競爭對手 Anthropic 去年已釋出具備 computer use 功能的 Claude 模型版本，看來都走上開發通用代理程式的必經之路。

但與 OpenAI、Anthropic 做法不同的是，Google 的 Gemini 2.5 Computer Use 模型只能存取瀏覽器，而非整個電腦使用環境。Google 指出這款模型目前尚未最佳化至桌面作業系統層級的控制，僅支援 13 種瀏覽器操作，包括開啟瀏覽器、輸入文字等。Google 還強調，這款模型在多項 Web 和行動控制的基準測試展現強大性能。

（圖片來源：Google Blog）