Figure 02 號稱「地表最強 AI 硬體」，能對話學習、無間斷工作 20 小時

3 月 GPT-4 上身，像科幻片會看聽說的機器人 Figure 01 又出來占據矽谷話題榜了，五天前官方 X 帳號預告了下代人形機器人 Figure 02。

7日充滿未來感的demo如期而至：

Figure 02外觀煥然一新：從上版閃銀色鉻金屬皮膚換成炫酷啞光黑，曲線也更流暢，背景不再是實驗室，轉到南卡羅來納州斯帕坦堡的BMW產線。Figure 02有靈巧的手指和身體關節，在工廠裡走來走去，以神經網路學習拿取和裝配汽車零件。

Figure AI稱，此次工程和設計團隊從頭設計硬體和軟體，人工智慧、計算機視覺、電池、電子設備、感測器和執行器等關鍵技術都有重大突破。

主要特徵有：

語音對話：機載麥克風和揚聲器連接到客製AI模型，能與人類對話。
鏡頭：AI驅動視覺系統由六個機載RGB鏡頭支援。
手部：第四代手部有16個自由度，與人類力量相當。
機載視覺語言模型（VLM）：使機器人鏡頭快速進行常識性視覺推理。
機載電池：機器人身體裡有2.25千瓦時客製電池組，提供超過50%能量。
CPU / GPU：與上代相比，機載計算和AI推理能力提升三倍。

CEO兼創辦人Brett Adcock表示，Figure 02概念設計評審是年2月歷時18個月完成，自豪是「地球最先進AI硬體」。

Introducing Figure 02

The world’s most advanced AI hardware

Exclusive pics + technical writeup👇 pic.twitter.com/2cts3pTIcN

— Brett Adcock (@adcock_brett) August 6, 2024

並高調回應馬斯克2月底宣戰：

https://t.co/5iDGkeqo9Z pic.twitter.com/zBg6uxg7oK

— Brett Adcock (@adcock_brett) August 6, 2024

他也透露部分主要技術：

首先是語音對話推理。Figure 02延續上代，用麥克風和揚聲器與人類語音對話，基於OpenAI合作訓練的客製AI模型，能理解處理並回應人類語音輸入。機器人以語音為預設操作介面，代表使用者可像與人交談自然與Figure 02互動，無需傳統按鈕或螢幕介面。

得益於機載視覺語言模型（VLM），Figure 02能經鏡頭「看懂」周圍環境，快速語義理解和常識性視覺推理，並智慧判斷。如物體辨識、場景理解，甚至洞悉人類行為意圖，增強機器人複雜現實世界的適應和互動能力。

Figure 02機載CPU / GPU計算和AI推理能力是上代三倍，能完全自動執行現實世界AI任務，無需靠外部資源。

除軟體外，Figure 02底層硬體也有大升級。

Figure 02採自研2.25千瓦時電池組，比Figure 01多超過50%能量，大大提升續航力，可每天工作長達20小時，接近全天候運行。

創新整合佈線系統看似簡單，其實非常複雜，不僅減少線路故障風險，隱藏式更美觀安全，緊湊佈局也最佳化機器人內部空間。還開發客製線纜埠和連接器，提升Figure 02可靠性。

六個分佈頭部、前軀幹和後軀幹的RGB鏡頭，以及AI驅動的視覺系統，賦予Figure 02超越人類的視覺。全方位鏡頭達成360度環境感測、精確深度感測和細節辨識。結合先進AI演算法，使Figure 02快速理解眼前複雜視覺資訊，做出相應判斷。

為了提升剛性強度並防止撞擊負荷，Figure 02有類似飛機的外骨骼結構：即外殼不僅保護內部元件，還能支撐結構。與傳統框架相比，外骨骼更有效利用材料，不犧牲強度下減輕重量，提高能源效率和移動性能。

一大亮點是Figure 02的第四代機器手，完全仿照人手尺寸和功能，16個自由度和與人類相當的力量，Brett Adcock稱涵蓋機械、電氣、控制和感測器各方面，展現高度靈活性和強度，使手部執行夠廣泛人類任務。

Figure控制總監Michael Rose和硬體總監Vadim Chernyak介紹，Figure 02零件高達幾千個，為了方便製造，腿部和電池等都可更換。Figure 02預告還透露扭矩等級高達150牛頓米（Nm），使機器人能搬運重量級物體。Figure 02運動範圍（ROM）達195度，堪稱重大突破。

儘管外界一直傳言，Figure AI拿到OpenAI、微軟、輝達6.75億美元B輪融資後就進入難產期，但終究還是把第二代機器人做出來了。

輝達高階研究員Jim Fan說：「恭喜 Brett！製作高自由度靈巧手的決定絕對是正確的。」