Google 氣球網路新進展：用 AI 控制氣球導航，不怕 Wi-Fi 被「吹」走

「更長的飛行時間，更少的能量消耗，更複雜的飛行動作。」這是 Google「氣球網路」專案「Project Loon」交回的最新成績單。

Google 母公司 Alphabet 於 2013 年 6 月正式啟動 Project Loon 計畫，該計畫旨在將 AI 技術與超壓氣球相結合，為更多地區提供低價且高速的無線網路服務，尤其是與市中心相距甚遠的偏遠地區。

前段時間，Loon 順利完成了最新一輪飛行測試。

最新分析結果顯示，在飛躍太平洋的 39 天裡，Loon 氣球表現出了比以往更好的性能──利用最新人工智慧系統，它能夠更快地計算出氣球的最佳導航路徑；在目標區域上飛行的時間更長、消耗的能量更少，更關鍵的是，它還提出了研究團隊未曾想到過的新的導航動作。

而這一最新人工智慧系統正是基於強化學習（Reinforcement-Learnin，RL）演算法的 AI 系統。

研究人員稱，這是他們首次將 RL 系統應用到航空航太產品中。Loon 取得的成績，表明 RL 可以做為解決現實世界自主控制問題的有效解決方案。

有關這項研究發現的論文成果已經登上了《Nature》雜誌。

然而，Google 為什麼要展開「氣球網路」計畫，以及強化學習系統到底解決了哪些難題。

「氣球網路」計畫

你可能難以想像，在網路如此普及的當下，全球還有一半的以上的用戶無法享受到這項服務。

2013 年，為了讓 30 多億用戶所在的偏遠地區覆蓋網路，Alphabet 正式啟動了高空網路服務計畫。之後幾年，陸續有不少科技公司也加入這個行列，比如 SpaceX、OneWeb 等。

其中最值得一提的，是馬斯克的「太空網路」計畫，他計劃向太空發射 42,000 顆通訊衛星，在地球低空軌道形成一個巨型星座來完成與地面的通訊任務。目前他已經成功發射了近 900 顆衛星。

相比於馬斯克的「太空衛星」，Alphabet 則把通訊業務的核心放在「高空氣球」上。

具體來說，用「高空氣球」實現地面通訊的過程如下：當氣球上升到高空平流層後（超過雲層 12 英里高），利用「太陽能技術」吸收能量為電力支持，然後透過「演算法系統控制（Algorithmic Control）」讓氣球上下飄動，並根據風向捕捉風流信號，將氣球穩定在一個固定區域。

最後透過「網狀迴路（Mesh Networking）技術」，將網路數據包從一個氣球傳輸至另一個氣球；從氣球傳輸至在屋頂建立天線的家庭和企業用戶；最後將這些用戶的數據傳輸出去。

在這個過程中，如果氣球在平流層飛行的時間越長，意味著 Loon 越可以在較低成本下為目標區域提供更長久的連通性，這也意味著網路服務將不僅可以覆蓋到更偏遠的地區，它的價格也會更便宜。

在近幾年的飛行測試中，Loon 的平流層飛行時長不斷刷新世界紀錄，目前最高成績已經達到 312 天，接近一整年。

這項最高飛行紀錄開始於 2019 年 5 月，Loon 從波多黎各（Puerto Rico）起飛，進入秘魯（Peru），在那裡進行為期 3 個月的飛行測試。測試結束後，向南越過太平洋，於今年 3 月在墨西哥的巴哈（Baja）登錄。

這項紀錄刷新了當時 223 天的最高紀錄，Loon 首席技術長 Sal Candido 在部落格中表示，創紀錄的飛行成績是該公司努力發展技術，並以創新的方式推動硬體和軟體向不斷升級的結果。

當時 Loon 的軟體系統還並未引入 RL。

目前，Loon 已經在澳洲、昆士蘭、肯亞、紐西蘭、加州中央峽谷以及巴西利亞東北部等多個地區提供了 Loon 測試服務。去年，因受到颶風襲擊的影響，美國電信營運商利用 Project Loon 為超過 25 萬的災民提供了網路。

不過，在以上服務過程中，Loon 的平流層導航問題依然面臨很大的挑戰。

此次，基於 RL 系統的提出為解決當前的挑戰，提供了一種全新的解決方案，與原有的氣球導航系統相比，RL 演算法改善了飛行過程中的決策時間問題。

Google 加拿大公司的研究科學家、論文第一作者馬克‧貝勒馬爾（Marc Bellemare）表示：

透過強化學習，我們可以根據數據決定該如何操作，AI 不僅可以決策，而且可以根據移動的時間做出即時決策。

Loon：強化學習飛行控制器

如果在一個區域提供完全的網路覆蓋，Loon 一次至少要運行 5 到 10 個氣球。如果覆蓋範圍擴大，需要調用周圍的備用氣球，在空中組建一個更大的網狀網路。

在這一過程中，氣球一般會出現以下狀況：一是因電池報廢等因素，導致氣球壽命縮短並自動降落；二是受颶風等惡劣天氣影響，氣球被吹出固定服務區；三是最關鍵也是難度最高的氣球導航。

上面已經提到過，Loon 的氣球導航是透過球體上下移動，尋找合適的氣流來進行導航。

如下圖（a）氣球透過在不同高度的風之間移動來接近它的指定位置。（b）顯示了氣球的飛行線路，藍色圓直徑代表 50 公里，為氣球之間的最佳距離。

但氣流是不穩定的東西，靠風在天空中移動就像使用一個道路網，在那裡街道會改變方向、車道數和速度限制，甚至在不可預知的時間完全消失。

因此要做到這一點就需要一套更複雜的演算法──強化學習。透過訓練飛行控制器，RL 可以形成一套控制策略，以處理高維的、異質的輸入，並優化長期目標。比如，RL 已經在 Dota 2 等即時策略性遊戲中多次戰勝人類頂級玩家，而且在長遠策略方面表現驚人。

而對於一個好的飛行控制器，需要確保 3 點：精準且豐富和數據集，最低負載消耗以及低計算成本。

在數據集方面，研究人員根據歐洲中期天氣預報中心（ECMWF）的全球再分析數據（ERA5）創建了可信的風數據集，並透過數據集的模型訓練重新解釋歷史天氣觀測的結果。（ERA5 提供了用程式噪聲修改的基準風，透過產生高解析度風場改變驅動程式噪聲的隨機種子，可以提高控制器建模誤差的魯棒性）。

在最低負載消耗方面，研究人員將部署控制器的平均功率控制在了 StationSeeker 之下（之前的風控制系統），同時使用獎勵 r 對目標進行了編碼。當氣球距離保持在 50 公里範圍內時，r=1 為最大值。當然這種獎勵也與氣球的狀態有關，也就是說，它的響應隨時間 t 的變化而提供不同的指示（上升、下降或停留）。

當係數小於 1 時，最優控制器將使未來回報的預測折現總和最大化，即「回報」。

其中 E 表示期望值。R _s 表示飛行控制器從初始狀態形成的長期值。

最後，計算成本主要體現在風的測量上，研究人員使用高斯過程將氣球的測量結果與 ECMWF 的預報結果相結合，將風預報為先驗平均值。後驗分布的方差量化了不同風估計的不確定性。做為控制器的輸入，對氣球正上方和下方的風大小和相對方位進行編碼，在 181 個氣壓等級下，範圍為 5 kPa 到 14 kPa。

太平洋高空測試

基於以上 RL 控制器，研究人員在太平洋上空進行了為期 39 天的氣球導航測試。

從 2019 年 12 月 17 日~2020 年 1 月 25 日，Loon 累計飛行了約 2,884 小時。這些數據被劃分為 851 個 3 小時時間，每個時間段為一個獨立樣本。最終測試結果顯示：

RL 控制器在平流層內飛行的時間更長（TWR50 79% 對 72%；U=850, 410.5，P<10 ^-4）；高度控制使用的功率更少（29w 對 33w，U=1048,814 ，P<10 ^-4）。

與 StationSeeker 相比，在 50 公里射程內，RL 控制器根據風況使用不同的策略，可以使其在 25~50km 射程內花費更多的時間（圖 4b）；透過主動移動以返回目標區域，縮短了偏移時間（圖 4c）。同時也讓它節省了更多能耗（圖 d）最後，RL 控制器利用海拔高度將電池容量過剩的太陽能轉化為了勢能（圖 4e）。

這些結果表明，強化學習是解決現實世界中自主控制問題的有效解決方案，在傳統控制方法（StationSeeker）無法滿足要求的情況下，需要創建與真實動態環境持續互動的人工智慧體。

（本文由雷鋒網授權轉載；首圖來源：Loon）