Google 氣球網路新進展:用 AI 控制氣球導航,不怕 Wi-Fi 被「吹」走

作者 | 發布日期 2020 年 12 月 04 日 16:15 | 分類 AI 人工智慧 , Google , 網路 Telegram share ! follow us in feedly


「更長的飛行時間,更少的能量消耗,更複雜的飛行動作。」這是 Google「氣球網路」專案「Project Loon」交回的最新成績單。

Google 母公司 Alphabet 於 2013 年 6 月正式啟動 Project Loon 計畫,該計畫旨在將 AI 技術與超壓氣球相結合,為更多地區提供低價且高速的無線網路服務,尤其是與市中心相距甚遠的偏遠地區。

前段時間,Loon 順利完成了最新一輪飛行測試。

最新分析結果顯示,在飛躍太平洋的 39 天裡,Loon 氣球表現出了比以往更好的性能──利用最新人工智慧系統,它能夠更快地計算出氣球的最佳導航路徑;在目標區域上飛行的時間更長、消耗的能量更少,更關鍵的是,它還提出了研究團隊未曾想到過的新的導航動作。

而這一最新人工智慧系統正是基於強化學習(Reinforcement-Learnin,RL)演算法的 AI 系統。

研究人員稱,這是他們首次將 RL 系統應用到航空航太產品中。Loon 取得的成績,表明 RL 可以做為解決現實世界自主控制問題的有效解決方案。

有關這項研究發現的論文成果已經登上了《Nature》雜誌。

然而,Google 為什麼要展開「氣球網路」計畫,以及強化學習系統到底解決了哪些難題。

「氣球網路」計畫

你可能難以想像,在網路如此普及的當下,全球還有一半的以上的用戶無法享受到這項服務。

2013 年,為了讓 30 多億用戶所在的偏遠地區覆蓋網路,Alphabet 正式啟動了高空網路服務計畫。之後幾年,陸續有不少科技公司也加入這個行列,比如 SpaceX、OneWeb 等。

其中最值得一提的,是馬斯克的「太空網路」計畫,他計劃向太空發射 42,000 顆通訊衛星,在地球低空軌道形成一個巨型星座來完成與地面的通訊任務。目前他已經成功發射了近 900 顆衛星。

相比於馬斯克的「太空衛星」,Alphabet 則把通訊業務的核心放在「高空氣球」上。

具體來說,用「高空氣球」實現地面通訊的過程如下:當氣球上升到高空平流層後(超過雲層 12 英里高),利用「太陽能技術」吸收能量為電力支持,然後透過「演算法系統控制(Algorithmic Control)」讓氣球上下飄動,並根據風向捕捉風流信號,將氣球穩定在一個固定區域。

最後透過「網狀迴路(Mesh Networking)技術」,將網路數據包從一個氣球傳輸至另一個氣球;從氣球傳輸至在屋頂建立天線的家庭和企業用戶;最後將這些用戶的數據傳輸出去。

在這個過程中,如果氣球在平流層飛行的時間越長,意味著 Loon 越可以在較低成本下為目標區域提供更長久的連通性,這也意味著網路服務將不僅可以覆蓋到更偏遠的地區,它的價格也會更便宜。

在近幾年的飛行測試中,Loon 的平流層飛行時長不斷刷新世界紀錄,目前最高成績已經達到 312 天,接近一整年。

這項最高飛行紀錄開始於 2019 年 5 月,Loon 從波多黎各(Puerto Rico)起飛,進入秘魯(Peru),在那裡進行為期 3 個月的飛行測試。測試結束後,向南越過太平洋,於今年 3 月在墨西哥的巴哈(Baja)登錄。

這項紀錄刷新了當時 223 天的最高紀錄,Loon 首席技術長 Sal Candido 在部落格中表示,創紀錄的飛行成績是該公司努力發展技術,並以創新的方式推動硬體和軟體向不斷升級的結果。

當時 Loon 的軟體系統還並未引入 RL。

目前,Loon 已經在澳洲、昆士蘭、肯亞、紐西蘭、加州中央峽谷以及巴西利亞東北部等多個地區提供了 Loon 測試服務。去年,因受到颶風襲擊的影響,美國電信營運商利用 Project Loon 為超過 25 萬的災民提供了網路。

不過,在以上服務過程中,Loon 的平流層導航問題依然面臨很大的挑戰。

此次,基於 RL 系統的提出為解決當前的挑戰,提供了一種全新的解決方案,與原有的氣球導航系統相比,RL 演算法改善了飛行過程中的決策時間問題。

Google 加拿大公司的研究科學家、論文第一作者馬克‧貝勒馬爾(Marc Bellemare)表示:

透過強化學習,我們可以根據數據決定該如何操作,AI 不僅可以決策,而且可以根據移動的時間做出即時決策。

Loon:強化學習飛行控制器

如果在一個區域提供完全的網路覆蓋,Loon 一次至少要運行 5 到 10 個氣球。如果覆蓋範圍擴大,需要調用周圍的備用氣球,在空中組建一個更大的網狀網路。

在這一過程中,氣球一般會出現以下狀況:一是因電池報廢等因素,導致氣球壽命縮短並自動降落;二是受颶風等惡劣天氣影響,氣球被吹出固定服務區;三是最關鍵也是難度最高的氣球導航。

上面已經提到過,Loon 的氣球導航是透過球體上下移動,尋找合適的氣流來進行導航。

如下圖(a)氣球透過在不同高度的風之間移動來接近它的指定位置。(b)顯示了氣球的飛行線路,藍色圓直徑代表 50 公里,為氣球之間的最佳距離。

但氣流是不穩定的東西,靠風在天空中移動就像使用一個道路網,在那裡街道會改變方向、車道數和速度限制,甚至在不可預知的時間完全消失。

因此要做到這一點就需要一套更複雜的演算法──強化學習。透過訓練飛行控制器,RL 可以形成一套控制策略,以處理高維的、異質的輸入,並優化長期目標。比如,RL 已經在 Dota 2 等即時策略性遊戲中多次戰勝人類頂級玩家,而且在長遠策略方面表現驚人。

而對於一個好的飛行控制器,需要確保 3 點:精準且豐富和數據集,最低負載消耗以及低計算成本。

在數據集方面,研究人員根據歐洲中期天氣預報中心(ECMWF)的全球再分析數據(ERA5)創建了可信的風數據集,並透過數據集的模型訓練重新解釋歷史天氣觀測的結果。(ERA5 提供了用程式噪聲修改的基準風,透過產生高解析度風場改變驅動程式噪聲的隨機種子,可以提高控制器建模誤差的魯棒性)。

在最低負載消耗方面,研究人員將部署控制器的平均功率控制在了 StationSeeker 之下(之前的風控制系統),同時使用獎勵 r 對目標進行了編碼。當氣球距離保持在 50 公里範圍內時,r=1 為最大值。當然這種獎勵也與氣球的狀態有關,也就是說,它的響應隨時間 t 的變化而提供不同的指示(上升、下降或停留)。

當係數小於 1 時,最優控制器將使未來回報的預測折現總和最大化,即「回報」。

其中 E 表示期望值。R s 表示飛行控制器從初始狀態形成的長期值。

最後,計算成本主要體現在風的測量上,研究人員使用高斯過程將氣球的測量結果與 ECMWF 的預報結果相結合,將風預報為先驗平均值。後驗分布的方差量化了不同風估計的不確定性。做為控制器的輸入,對氣球正上方和下方的風大小和相對方位進行編碼,在 181 個氣壓等級下,範圍為 5 kPa 到 14 kPa。

太平洋高空測試

基於以上 RL 控制器,研究人員在太平洋上空進行了為期 39 天的氣球導航測試。

從 2019 年 12 月 17 日~2020 年 1 月 25 日,Loon 累計飛行了約 2,884 小時。這些數據被劃分為 851 個 3 小時時間,每個時間段為一個獨立樣本。最終測試結果顯示:

RL 控制器在平流層內飛行的時間更長(TWR50 79% 對 72%;U=850, 410.5,P<10 -4);高度控制使用的功率更少(29w 對 33w,U=1048,814 ,P<10 -4)。

與 StationSeeker 相比,在 50 公里射程內,RL 控制器根據風況使用不同的策略,可以使其在 25~50km 射程內花費更多的時間(圖 4b);透過主動移動以返回目標區域,縮短了偏移時間(圖 4c)。同時也讓它節省了更多能耗(圖 d)最後,RL 控制器利用海拔高度將電池容量過剩的太陽能轉化為了勢能(圖 4e)。

這些結果表明,強化學習是解決現實世界中自主控制問題的有效解決方案,在傳統控制方法(StationSeeker)無法滿足要求的情況下,需要創建與真實動態環境持續互動的人工智慧體。

(本文由 雷鋒網 授權轉載;首圖來源:Loon

延伸閱讀: