
隨著人工智慧(AI)工作執行的爆炸性成長,傳統資料中心架構的核心支柱─叢集型態的橫向擴展(Scale-Out)模式,正受到嚴峻挑戰,甚至可能遭到終結。市場分析師 Christopher Tozzi 專文報告指出,資料中心架構必須重新思考其策略,並擁抱更智慧、網路驅動的方法,才能滿足未來 AI 時代的需求。
傳統擴展模式的失靈
報告指出,數十年來,資料中心架構一直依賴簡單的策略來應對不斷成長的工作需求,那就是透過以叢集的方式增加伺服器來擴展基礎設施,以提升運算、記憶體和儲存容量。即使相關雲端營運商沒有明確確認,但這種橫向擴展方法在資料中心設計中始終占據主導地位。透過增加伺服器機架數量以利用既有資料中心空間,或是升級硬體以提供更高的容量。只要電力和冷卻容量足夠,企業就能按需求擴展其基礎設施。
然而,現代 AI 應用程式對傳統模式構成了重大挑戰。AI 工作執行要求以極高的速度來存取大量數據,這成為當前最迫切的問題。單純增加更多伺服器或基礎設施並不能一直滿足這種需求。資料中心內部可能出現網路瓶頸,或個別設備的 I/O 速率緩慢,進一步阻礙了數據的快速移動。因此,報告指出,資料中心擴展性的主要限制已不再僅是總運算、記憶體和儲存容量。相反,它已轉變為工作執行存取和使用這些資源的速度和效率。
網路為核心的 AI 時代新擴展策略
雖然,叢集形式的橫向擴展架構在一定程度上仍具有相關性,且增加基礎設施仍會繼續發揮作用。但資料中心架構師必須超越傳統策略,應對 AI 帶來的獨特挑戰。尤其,未來的資料中心擴展性不僅涉及增加伺服器數量或容量,還必須在網路層級進行擴展。
報告表示,歷史上資料中心架構設計人員可以達成網路設備可靠的將數據傳送到目的地。但是,面對 AI 工作執行需要近乎瞬時移動數兆位元組數據的需求,這種做法已經過時,網路現在必須成為可擴展性工作的核心焦點。因此,設計人員必須依賴新的創新:
- 優化網路結構,重新設計網路布局,從網路層級將瓶頸最小化,確保數據的高效率流動。
- 設計智慧機架,增強機架配置,以優化機架內個別伺服器之間的數據移動,進一步降低延遲並提升性能。
- 部署如資料處理單元(DPU)等技術,以加速設施內的數據移動,並緩解網路壅塞。
- 實施先進的互連技術,特別針對跨地理分布設施的工作負載,促進多個資料中心之間更快的數據傳輸。

如此藉由傳統的叢集形式橫向擴展方法與現代網路創新相結合,資料中心才能真正滿足 AI 及其他新興技術的需求。
晶片戰爭與巨額投資仍將繼續
報告還強調,在資料中心設計架構轉型的同時,提供資料中心設備與技術的產業也在迅速演變。其中,在晶片領域,AMD 與 OpenAI 先前達成了一項大規模的 GPU 交易,這使得 AMD 在 AI 晶片競爭中取得了重大突破。有分析指出,AI 晶片戰爭已死,系統戰爭萬歲。
同時,為緩解 AI 運算短缺問題,微軟正投注 330 億美元於 Neoclouds 計畫中,但是,這些資料中心的繁榮發展也帶來潛在風險。例如 Ares 的 deVeer 就警告,目前的熱潮可能導致過度建設的風險。此外,業界對環境可持續性的關注持續升溫,探討資料中心如何在建設與設計過程中,達到供電平衡與同時保護生物多樣性的討論。總結來說,隨著資料中心從單純追求容量擴展,轉向對數據移動效率的極致追求,網路已成為未來 AI 驅動型資料中心成功的關鍵。
(首圖來源:pixabay)