你給 AI 代理(Agent)一項任務,它將獨立幫你完成,OpenAI 總裁布洛克曼(Greg Brockman)指「2025 年是 AI 代理年」。
OpenAI 23 日為 ChatGPT 發表「Operator」的研究預覽版( operator.chatgpt.com ),它是一項能夠連接網路、為你執行特定任務的 AI 代理工具,消除 OpenAI 邁向 AGI(Artificial General Intelligence,通用人工智慧)使命之路的其一瓶頸。
OpenAI 透過 YouTube 直播,向用戶介紹 Operator 功能、背後如何運作。團隊成員舉例,要求 Operator 在購票網站 StubHub 購買 4 張週末的 NBA 球賽門票,它將模擬人們操作來線上購票。值得一提的是,過程中若暫時卡住,比方說列出多個球館座位給用戶選擇,Operator 會將主控權交還用戶,必要時都會向用戶確認。
OpenAI 指出,驅動 Operator 的是 Computer-Using Agent(CUA),透過強化學習將 GPT-4o 視覺與高階推理相互結合,形成一款模型。CUA 經過訓練,可與圖形使用者介面(graphical user interface,GUI)互動,即人們在螢幕上看到的按鍵、選單、文句,模擬人們看著螢幕畫面並操作鍵盤、滑鼠來達成目的。
CUA 建立在長期的多模態理解和推理基礎研究上,將高階 GUI 感知與結構化問題解決結合在一起,Operator 可將一項任務分解成多步驟的計畫,受到挑戰時自我修正。不過,OpenAI 強調 CUA 處於早期階段且有限制,有出錯的可能性。
▲ OpenAI 解釋 CUA 如何運作。
CUA 是 OpenAI 首批可在瀏覽器直接執行操作的 AI 代理產品,因此帶來挑戰和風險。OpenAI 進行廣泛測試,避免用戶透過 Operator 濫用、從事非法行為;也避免 CUA 進行使用者未指定的操作,進而對用戶或他人造成傷害。
OpenAI 表示,Operator 優先在美提供給月付 200 美元的 ChatGPT Pro 訂閱用戶使用。此外,OpenAI 正在與 DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等公司合作,使 Operator 在尊重既定規範同時滿足用戶生活需求。
▲ OpenAI 為 ChatGPT Pro 用戶帶來全新 Operator 功能。
(首圖來源:影片截圖)