波士頓動力的「大黃狗」Spot 可說是機器人界的網紅,會巡邏、會搬磚、會跳舞的 Spot 誕生後就吸引全世界機器人愛好者的目光,誰能拒絕靈活憨厚,還會賣萌的機器狗?
經過多年發展,賣萌不再是 Spot 的「主業」,波士頓動力介紹 Spot 現在能幫助人類完成特定任務,如跨洋輪船檢查儀表、參與地勢複雜的勘測或救援等。如果以 Spot 靈活身軀再裝上 ChatGPT 這麼聰明的大腦,會發生什麼事?
人工智慧專家 Santiago Valdarrama 還真做出了有「最強大腦」的 Spot。
ChatGPT 大幅簡化人機互動
Santiago 分享與改造版 Spot 互動影片,可能是史上第一隻會講話聊天的機器狗。Spot 不只是裝了「Siri」的裝置,當它回答人類問題時,身體還會隨內容和語調擺動,就像瓦力再現。當問「Yes Or No」的簡單問題,還會「點頭」「搖頭」等身體語言回答,可見 Spot 不只內建智慧音箱那麼單純。
接上 ChatGPT 後,Spot 最大變化就是聽得懂人話了,且能和消費者以自然語言溝通。Santiago 示範對 Spot 說房間太擠,請它後退,話音剛落 Spot 就理解 Santiago 的意思,往後退了幾步,頗有科幻電影的 AI 機器人味道。
過去控制 Spot 需用類似無人機遙控器或以電腦輸入指令,現在 ChatGPT 賦予 Spot 強大自然語言理解力,動動嘴就能與機器人對話。ChatGPT 擔任人類與機器人的翻譯,把人類輸入的「人話」轉成機器能懂的指令,再把機器人回饋用實際行為或「人話」表達。
Santiago 介紹如何將 Spot 資料輸入 ChatGPT,並解釋結構及如何讀取,達成與 Spot 語音對話。操作員與 Spot 互動可大幅簡化,人類可直接問它:「你電量還剩多少?」Spot 就會用說的回答,中間用到 Google 文字轉語音技術,再將 ChatGPT 答覆經 Spot 的「嘴巴」說出來。
Spot(或內建的 ChatGPT)會根據實際情況回答問題,如問它接下來需完成什麼任務時,它會根據設定好任務清單作答,避免像 ChatGPT 編造回答。當操作者下達 Spot 轉 90 度、前進 1 公尺的命令,Spot 會調動感測器和定位系統,精準回應命令,不會因「大腦太發達」失去控制。有趣的是,當問它「你是誰?」它會回答「我是 OpenAI」而不是「我是 Spot」。
Santiago 的公司 Levatas 是與波士頓動力合作的 AI 公司,專門幫助企業探索如何利用機器人解決問題。Santiago 認為幫 Spot 裝上 ChatGPT 最大意義,是把原本只有技術人員才能處理的複雜數據變成任何人都能看懂聽懂的自然語言。
機器人每次執行任務前,都要輸入冗長指令集,結束後還會產生大量數據,只有專業技術人員才能從數據分析問題再改善,現在經過 ChatGPT,簡單兩句話就能搞定,當機器人操作門檻變低後,機器人使用情景就會更豐富。
AI 大模型潛力不容小覷
「最強大腦」版 Spot 並不是一蹴可及,一個月前 Santiago 曾上傳影片介紹能「聽懂人話」的 Spot,用到 OpenAI 另一個重要 AI 模型 Whisper。這「初版」智慧 Spot,Santiago 有詳細介紹原理:
Whisper 可高效將語音即時轉成文字,正確率和速度都非常可觀。透過 Whisper 與 Spot 的 SDK 結合,可從人類的話提取關鍵字,然後透過 SDK 向 Spot 下指令。
The next 5 years will be wild.
Knowing how to code and how these AI models work will give you infinite leverage.
We integrated @OpenAI‘s Whisper with Spot. We can now control the robot using our voice!
Nothing is more rewarding than seeing your code walk on four legs. pic.twitter.com/MDgYdYfQLN
— Santiago (@svpino) March 27, 2023
只需要說句話,就可讓 Spot 離開充電座去檢查儀表是否出問題,大大降低人類操作成本。Santiago 從很好的角度回答廣泛討論的問題:做出 ChatGPT 等大語言模型到底有什麼意義?
一開始人們認為 ChatGPT 就只是生成式 AI,有較強自然語言理解能力,可以寫文章、做報表,雖然不太可靠,但也算驚豔。後來人們發現只要給 ChatGPT 恰當指令,可幫人類自動完成程式設計或文字處理等,猶如基於自然語言的電腦。
OpenAI 發表外掛程式集功能後,ChatGPT 可與許多網路應用結合,整合很多跨平台操作用對話,形成網路新入口。微軟 Copilot 則啟發人們對下階段人機互動想像:圖形操作介面不一定永遠合理,許多大家習以為常的操作都可由對話取代。
回到 Spot,能更清晰看出大語言模型的意義:簡化人機互動,賦予機器人更高級的智慧。無論 ChatGPT 是新網路入口,還是控制具學習能力、問題分析和執行精密操作的工業機器人遙控器,本質上都是把複雜指令集變成自然語言,降低操作成本。
這種賦能使將來工業機器人不僅成為指令執行的工具,更具備與人類大腦相當的智能。就像圖形介面把複雜命令行變成直覺圖示,點按不同圖示的複雜操作又變成簡單一句話,人類正從圖形使用者介面走向新階段:自然語言用戶介面。
這階段大語言模型將成為工業機器人的關鍵技術,簡化人機互動,提高生產效率,推動人類科技發展。某些情況下,語言模型理解語言時甚至比人類表現更好。普林斯頓大學教授 Arvind Narayanan 在部落格提到親身案例。
Arvind Narayanan 為 ChatGPT 接上語音互動,給快 4 歲的女兒試用。就和所有孩子一樣,女兒也充滿好奇心,經常問 ChatGPT 各種問題,讓他意外的是,他告訴 ChatGPT 是和孩童說話時,ChatGPT 回答會更有同理心。
女兒:「關燈後會發生什麼事?」
ChatGPT:「關燈後會變得很黑,也可能讓人害怕。但不用擔心!很多東西能幫妳在黑暗中感覺安全舒適。」
《彭博社》專欄作家 Parmy Olson 指出,微軟和 Google 都忙著把大模型裝上搜尋引擎,卻沒看到一個事實:ChatGPT 更適合當個陪伴者。Olson 讓 ChatGPT 做 EQ 測試,結果分數比她和同事還好。正因 ChatGPT 是用網路文字訓練,數據會有大量錯誤資訊,但這讓它更擅長模仿同理。
這些案例說明大語言模型對自然語言的理解能力其實有很大潛力。借助強大理解能力,可用大語言模型達成再次人機互動革命,同時大語言模型為機器人發展帶來新可能性。大語言模型讓機器人更快理解和處理指令,更快學習和適應新任務和環境。
《紐約客》封面文章〈黑暗工廠〉(Dark Factory)提到,目前工業機器人共同難處就是設計像人手的「末端執行器」(end effector),讓機器人以不同力道抓取各種大小形狀的物體。
如果這難題解決,機器人能做更多精細工作,自動化程度會大大提高。如各種水果採摘自動化,蘋果產品組裝流水線不再需要這麼多工人。將來工業機器人不僅是指令執行的工具,更具備與人類大腦相當的智能,有學習能力、問題分析和執行精密操作的能力。
工業生產線「肌肉發達」的工業機器人更靈活,可應付各種生產問題,提高生產效率和品質,如車廠,大語言模型可賦予機器人更強智慧和認知力,完成多樣化任務,醫療機器人可以自然語言技術與醫生和病患交流,提供更佳服務。
大語言模型給機器人更強的大腦,創造更廣泛應用場景,很有可能成為第四次工業革命的核心。「語音版」Spot,便是改革的第一絲火花。
(本文由 愛范兒 授權轉載;首圖來源:影片截圖)