AI 時代的摩爾定律？黃氏定律靠的是自身技術力將 AI 性能年年加倍

1965 年，時任快捷半導體公司工程師，也是後來英特爾（Intel）的創始人之一的戈登·摩爾（Gordon Moore）提出了摩爾定律（Moore’s law），預測積體電路上可以容納的晶體管數目大約每經過 24 個月便會增加 1 倍。

後來廣為人知的每 18 個月晶片性能將提高 1 倍的說法是由 Intel CEO 大衛·豪斯（David House）提出。過去的半個多世紀，半導體行業按照摩爾定律發展，並驅動了一系列的科技創新。

有意思的是，在摩爾定律放緩的當下，以全球另一大晶片公司 NVIDIA 創始黃仁勳（Jensen Huang）名字命名的定律——「黃氏定律（Huang’s Law）」對 AI 性能的提升作出預測，預測 GPU 將推動 AI 性能實現逐年翻倍。

▲ NVIDIA GPU 助推 AI 推理性能每年提升 1 倍以上。（Source：影片截圖）

Intel 提出了摩爾定律，也是過去幾十年最成功的晶片公司之一。NVIDIA 作為當下最炙手可熱的 AI 晶片公司之一，提出黃氏定律是否也意味著其將引領未來幾十年晶片行業的發展？

AI 性能將逐年翻倍

受疫情影響，一年一度展示 NVIDIA 最新技術、產品和中國合作夥伴成果的 GTC China 改為線上舉行，黃仁勳缺席今年的主題演講，由 NVIDIA 首席科學家兼研究院副總裁 Bill Dally 進行分享。Bill Dally 是全球著名的電腦科學家，擁有 120 多項專利，在 2009 年加入 NVIDIA 之前，曾任史丹佛大學電腦科學系主任。加入 NVIDIA 之後，Dally 曾負責 NVIDIA 在 AI、光線追蹤和高速互連領域的相關研究。

▲NVIDIA 首席科學家兼研究院副總裁 Bill Dally。

在 GTC China 2020 演講中，Dally 稱：「如果我們真想提高電腦性能，黃氏定律就是一項重要指標，且在可預見的未來都將一直適用。」

Dally 用三個項目說明黃氏定律將如何得以實現。首先是為了實現超高能效加速器的 MAGNet 工具。NVIDIA 稱，MAGNet 生成的 AI 推理加速器在模擬測試中，能夠達到每瓦 100 tera ops 的推理能力，比目前的商用晶片高出一個數量級。

之所以能夠實現數量級的性能提升，主要是因為 MAGNet 採用了一系列新技術來協調並控制通過設備的訊息流，最大限度地減少數據傳輸。數據搬運是 AI 晶片最耗能的環節已經是當今業界的共識，這一研究模型以模組化實現能夠實現靈活擴展。

Dally 帶領的 200 人的研究團隊的另一個研究項目目標是以更快速的光鏈路取代現有系統內的電氣鏈路。Dally 說：「我們可以將連接 GPU 的 NVLink 速度提高一倍，也許還會再翻番，但電信號最終會消耗殆盡。」

這個項目是 NVIDIA 與哥倫比亞大學的研究團隊合作，探討如何利用電信供應商在其核心網絡中所採用的技術，通過一條光纖來傳輸數十路信號。據悉，這種名為「密集波分複用」的技術，有望在僅一毫米大小的晶片上實現 Tb/s 級數據的傳輸，是如今連網密度的 10 倍以上。

▲ 搭載 160 多個 GPU 的 NVIDIA DGX 系統模型。

Dally 在演講中舉例展示了一個未來將搭載 160 多個 GPU 的 NVIDIA DGX 系統模型。這意味著，利用「密集波分複用」技術，不僅可以實現更大的吞吐量，光鏈路也有助於打造更為密集的系統。

想要發揮光鏈路的全部潛能，還需要相應的軟件，這也是 Dally 分享的第三個項目——全新程式語言系統原型 Legate。Legate 將一種新的編程速記融入了加速軟件庫和高級運行時環境 Legion，借助 Legate，開發者可在任何規模的系統上運行針對單一 GPU 編寫的程序——甚至適用於諸如 Selene 等搭載數千個 GPU 的巨型超級電腦。

Dally 稱 Legate 正在美國國家實驗室接受測試。

MAGNet、以光鏈路取代現有系統內的電氣鏈路以及 Legate 是成功實現黃氏定律的關鍵，但 GPU 的成功才是基礎。因此，GPU 當下的成功以及未來的演進都尤其重要。

GPU 是黃氏定律的基礎

今年 5 月，NVIDIA 發布了面積高達 826 平方毫米，整合了 540 億個晶體管的 7 奈米全新安培（Ampere）架構 GPU A100。相比 Volta 架構的 GPU 能夠實現 20 倍的性能提升，並可以同時滿足 AI 訓練和推理的需求。

憑藉更高精度的第三代 Tensor Core 核心，A100 GPU AI 性能相比上一代有明顯提升，此前報導，在 7 月的第三個版本 MLPerf Training v0.7 基準測試（Benchmark）結果中，NVIDIA 的 DGX SuperPOD 系統在性能上開創了 8 個全新里程碑，共打破 16 項紀錄。

另外，在 10 月出爐的 MLPerf Inference v0.7 結果中，A100 Tensor Core GPU 在雲端推理的基準測試性能是最先進 Intel CPU 的 237 倍。

更強大的 A100 GPU 迅速被多個大客戶採用，迄今為止，阿里雲、百度智能雲、滴滴雲、騰訊雲等眾多中國雲服務提供商推出搭載了 NVIDIA A100 的多款雲服務及 GPU 實例，包括圖像辨識、語音辨識，以及計算流體動力學、計算金融學、分子動力學等快速增長的高性能計算場景。

另外，新華三、浪潮、聯想、寧暢等系統製造商等也選擇了最新發布的 A100 PCIe 版本以及 NVIDIA A100 80GB GPU，為超大數據中心提供兼具超強性能與靈活的 AI 加速系統。

Dally 在演講中提到：「經過幾代人的努力，NVIDIA 的產品將通過基於物理渲染的路徑追蹤技術，即時生成令人驚豔的圖像，並能夠借助 AI 構建整個場景。」

與光鏈路取代現有系統內的電氣鏈路需要軟硬體的匹配一樣，NVIDIA GPU 軟硬體的結合才能應對更多 AI 應用場景苛刻的挑戰。

Dally 在此次的 GTC China上首次公開展示了 NVIDIA 對話式 AI 框架 Jarvis 與 GauGAN 的組合。GauGAN 利用生成式對抗網路，只需簡略構圖，就能創建美麗的風景圖。演示中，用戶可通過語音指令，即時生成像照片一樣栩栩如生的畫作。

GPU 是黃氏定律的基礎，而能否實現並延續黃氏定律，僅靠少數的大公司顯然不夠，還需要眾多的合作夥伴激發對 AI 算力的需求和更多創新。

黃氏定律能帶來什麼？

NVIDIA 已經在構建 AI 生態，並在 GTC China 上展示了 NVIDIA 初創加速計劃從 100 多家 AI 初創公司中脫穎而出的 12 家公司，這些公司涵蓋會話人工智慧、智慧醫療 / 零售、消費者網路 / 行業應用、深度學習應用 / 加速數據科學、自主機器 / IoT / 工業製造、自動駕駛汽車。

智慧語音正在改變我們的生活。會話人工智慧的深思維提供的是離線智慧語音解決方案，在佔有很少空間的前提下實現智慧交互，語音合成和語音辨識保證毫秒級響應。深聲科技基於 NVIDIA 的產品研發高質量中英文語音合成、聲音定制、聲音複製等語音 AI 技術。

對於行業應用而言，星雲 Clustar 利用 NVIDIA GPU 和 DGX 工作站，能夠大幅提升模型預測精確度以及解決方案處理性能，讓傳統行業的 AI 升級成本更低、效率更高。

摩爾定律的成功帶來了新的時代，黃氏定律能否成功仍需時間給我們答案。但這一定律的提出對 AI 性能的提升給出了明確的預測，並且 NVIDIA 正在通過硬體、軟體的提升和創新，努力實現黃氏定律，同時藉生態的打造想要更深遠的影響 AI 發展。

黃氏定律值得我們期待。

（本文由雷鋒網授權轉載；首圖來源：NVIDIA）