
近期熱議的人工智慧代理平台 Manus,憑藉自動操作網站、執行任務的能力,迅速在開發者社群掀起熱烈討論。然 Manus 爆紅同時,也意外捧紅背後開源工具 Browser Use,短時間內成為開發圈最受矚目技術。
簡單來說,Browser Use可將網站前端結構轉換為AI能理解的文字格式,讓語言模型不再只能讀取資料,而是能「讀懂」網站,進一步像人類一樣完成點擊、輸入、瀏覽等操作。
Browser Use共同創辦人Gregor Žunič表示,相關介紹文章在社群平台X獲得超過240萬次瀏覽,使Browser Use的日下載量從5,000次飆升至28,000次,並迅速登上GitHub熱門排行。
令人意外的是,這套技術的雛形,其實只是一項由兩位碩士學生在週末完成的實驗,僅花了四天就打造出第一版原型。AI自動操作網站的概念並不新穎,許多團隊早有嘗試,但Browser Use究竟做對了什麼,能率先突破限制,並贏得開源社群與市場青睞?
Browser Use讓AI真正「讀懂」網站
近期AI代理(AI Agent)成為人工智慧應用備受關注的方向,許多新創團隊紛紛投入,嘗試讓AI自主完成各種網頁任務。然目前多數技術解法仍仰賴「視覺導向」的方式,如截圖擷取網站畫面、分析畫面元素的座標位置,模擬人類的操作流程。
這類方法雖然相對容易上手,但穩定性往往不高。一旦網站介面略有調整,例如按鈕位置變動、功能重新排列,原本設定好的自動化流程就可能失效,導致任務中斷,也增加維護與修正的技術成本。同時,網站普遍具備反機器人機制,像是封鎖異常IP、要求輸入驗證碼、或強制重新登入等,也讓AI的執行過程充滿不確定性。
Browser Use採完全不同路徑。不依賴圖像判斷,而是讓AI真正「讀懂」網站,透過網頁互動元素(如按鈕、輸入欄位、下拉選單等)轉譯為語意化結構化文字格式,使大型語言模型(LLMs)能像理解自然語言一樣理解網站邏輯,進而自主做出操作決策。這樣的方式避開了視覺辨識常見的座標誤差與版面變動問題,大幅提升操作的準確性與穩定性。
▲ Browser Use透過網頁互動元素例如按鈕、輸入欄位、下拉選單等轉譯為語意化的結構化文字格式,使大型語言模型(LLMs)能像理解自然語言一樣理解網站邏輯,進而自動做操作決策。
使用者只需下達任務指令,例如「登入某網站」、「下載某報表」、「填寫特定表單」,Browser Use便能協助AI自動解析網站架構,依序完成各項操作。不僅支援多分頁操作與滑鼠鍵盤模擬,還能存取電腦檔案,讓AI能順利執行更複雜且具連貫性的網頁任務。
▲ Browser use示範用Google Docs寫信給爸爸,並將文件存成PDF的流程。(Source:Browser use)
有趣的是,這項AI技術的原型僅花了四天就完成。是什麼原因,讓一個構想能夠引發開源社群的關注與討論?
午餐時的點子,四天做出原型並引發關注
這個點子來自瑞士蘇黎世聯邦理工學院(ETH Zurich)兩位資料科學碩士生Magnus Müller與Gregor Žunič。
Magnus Müller擅長開發網頁爬蟲與自動化工具,Gregor Žunič則專注於將資料科學應用於實際任務與流程最佳化。兩人在2024年於校園創新加速器「Student Project House」相識,隨即展開合作,著手開發一套能讓大型語言模型控制瀏覽器、直接操作網頁的開源架構。
Gregor Žunič回憶,這個構想最初只是幾次午餐閒聊討論的點子,「我們想做個小東西放上Hacker News,看看會發生什麼事」,沒想到短短四天內便完成了最小可行產品(MVP),並同步上傳至GitHub與Hacker News。
產品曝光後便登上熱門榜首,迅速引發開發者社群的熱烈關注,也吸引大量使用者參與試用與貢獻開發。目前Browser Use在GitHub累積超過五萬顆星,有超過15,000位開發者貢獻者,已成為開源AI自動化領域受矚目專案之一。
▲ Browser Use創辦人Magnus Müller(左)與Gregor Žunič。(Source:Gregor Žunič)
起初,Browser Use僅提供開源版本,供開發者自行部署與客製化使用。但就在OpenAI推出自家瀏覽器代理服務「Operator」後,Browser Use社群的需求瞬間爆炸──許多開發者紛紛詢問是否能直接提供一套免安裝、開箱即用的雲端服務。團隊因應需求,迅速推出由官方營運的線上版本,訂價為每月30美元(約新台幣945元)。
這項線上服務整合了IP切換、驗證碼處理、自動記住登入狀態等功能,並支援同時執行多個任務,使用者無需處理繁瑣的後端設定,就能直接在平台部署AI代理流程。這項產品調整,讓Browser Use不再只是開源工具,也開始具備作為AI代理平台的商業化可能。
看準代理型AI成長潛力,獲1,700萬美元資金挹注
根據市場研究機構Research and Markets的預測,至2029年,AI代理市場的規模將達到420億美元。顧問公司Deloitte則指出,到2027年,超過一半的企業將導入AI代理技術,顯示逐漸成為企業數位轉型的關鍵技術。
在這波產業趨勢,Browser Use也成功獲得資本市場的青睞。由Felicis合夥人Astasia Myers領投、Paul Graham、Nexus Venture Partners、A Capital等創投機構參與的種子輪募資中,Browser Use募得1,700萬美元資金(約新台幣5,100萬元)。
Astasia Myers表示,團隊「開源優先」的策略與AI代理應用定位,是促成投資的主因之一;她同時指出,創辦團隊的執行能力與專業度,亦是吸引投資人關注的重要因素。
團隊正積極開發語音操作、任務重跑、自動排程等功能,並計畫推出API介面,協助開發者更容易將AI代理整合至自家產品。Gregor Žunič表示:「告訴電腦你要做什麼,它就會幫你完成。」這句話,也正是他們想讓AI真正做到的事。
- Browser Use, one of the tools powering Manus, is also going viral
- Browser Use: Open Source alternative to OpenAI Operator
- Open-source AI startup Browser Use nets $17m seed funding
- Browser Use, the tool making it easier for AI ‘agents’ to navigate websites, raises $17M
- Browser Use raises $17 million to revolutionize the interaction between AI and the web
- Browser Use raises $17M to help steer AI agents through the internet
(本文由 創業小聚 授權轉載;首圖來源:Browser use)