
隨著 AI 算力基礎設施的搶建熱潮,高效能運算(HPC)成為各國競逐焦點。為培育 AI/HPC 跨領域人才,清華大學資工系周志遠教授帶領學生團隊征戰各大超級電腦大賽。今年在技鋼科技軟硬體資源與專業技術支持下,再度勇奪 2025 ISC 歐洲超級電腦大賽第二名。
德國 ISC 與美國 SCC 和中國 ASC 並稱全球三大超級電腦競賽,為大學生提供展示解決真實世界問題等軟硬體綜合實力,並促進交流學習的平台。
長年深耕分散式運算與高效能運算領域,並曾任職於美國勞倫斯柏克萊國家實驗室的周志遠教授表示,ISC 大賽要求學生自行組裝小型超級電腦執行 AI 與科學計算應用,並在 6000 瓦功耗限制下最大化效能。參賽者需展現從底層硬體到上層軟體的系統建置經驗,以及效能優化與電量控制技巧。比起傳統課程學習,參賽者必須從解決實際問題出發,反向判斷需要學習的必要技能。
為組建參賽隊伍,周志遠在資工系開設 HPC 基本知識課程,使用模擬比賽的體驗學習方式提升效率。比賽成員從前一年一月開始訓練,並在 2024 年先行參加台灣國網盃與新加坡 HPC-AI 競賽,於 HPC-AI 競賽中奪冠。
本屆 ISC 大賽題目橫跨地震模擬、流體力學及奈米材料等科學應用領域。周志遠強調,由於資工系學生未曾接觸這些科學領域,團隊需要其他學系學生加入協作。今年的隊長是化工系的盛爾葳,成員除了學士班的紀冠宇之外,呂宣陽、葉宥辰、林芷儀、林威盛都是來自資工系的同學;另有兩位學生教練是參加過去年比賽的資工系學長林展毅以及謝東豫。
賽前即已展開技鋼 HPC 節點測試,事先制定好資源調配致勝策略
去年清大資工團隊拿到 ISC 亞軍,今年兩位學生教練即為去年參賽成員,可提供比賽規則、裝機流程及臨場應變等寶貴經驗。
賽前三個月,技鋼科技提供的 HPC 節點已運送至學校機房供團隊測試調校。在 HPL Benchmark 測試中,團隊透過調整 GPU 熱設計功耗(TDP)、CPU 頻率及系統風扇速度,成功將執行瓦數壓進限制範圍,同時提高 TFLOPS 浮點運算數值。
針對 AI 微調題目,團隊採用開源自動調參工具 Optuna 協助應對。團隊讚賞技嘉伺服器搭配 NVIDIA H200 GPU 所提供的優異性能,讓他們能專注在資料和模型特性進行調整。透過賽前演練,事先模擬各關卡應對方式,制定好效能調校、電力資源及時間分配的因應策略。
NVIDIA H200 NVL 與 AMD EPYC™ 9655 的組合,完美展現效能與能耗的一流配置
今年競賽題目最大不同處,是將訴諸算力的 HPCC 改為要求突破「I/O」瓶頸的 IO500。此外,應用題的 GPU 需求大增,讓比賽時在 6kW 功耗限制下將 GPU 運算資源「及時」分配變得更加困難。今年技鋼科技提供的應戰武器在 GPU 方面全面升級,由去年的 NVIDIA H100 NVL 演進為 8 張 NVIDIA H200 NVL。
今年大賽的 HPC 應用效能調校題目包括以 SeisSol 進行地震模擬、code_saturne 計算流體力學(CFD)、OpenMX 進行奈米尺度材料模擬,以及 LLaMA 3.1 8B 進行 LLM 參數調校,最後一天公布的秘密題是運行 LAMMPS 分子動力學模擬軟體。每項題目各有不同挑戰性,以 LLaMA 微調為例,融合了 HPC 與 AI 特性,也挑戰隊伍在短時間內做出效能與準確度最佳取捨的能力。清大團隊在所有題目皆以絕佳的軟硬體資源配置取得第二名佳績。
技鋼科技除提供賽事所需硬體設備與技術支援外,並在比賽前後提供系統排錯、設備追蹤及運送等多方面協助。
依據比賽需求討論後,技鋼科技為團隊提供技嘉 G494-ZB4-AAP2 伺服器與 R183-Z90-AAD1 機架式伺服器。前者預先搭載 8 張 NVIDIA H200 NVL,比起 H100 NVL,H200 提供 1.5 倍記憶體容量、1.4 倍記憶體頻寬、3 倍 NVIDIA NVLink™ 互連頻寬,以及 1.7 倍 LLM 推論速度與 1.3 倍 HPC 應用效能,在今年各題 GPU 需求殷切下已然取得優勢。

▲ 由左至右為 GIGABYTE G494-ZB4-AAP2 伺服器與 R183-Z90-AAD1 機架式伺服器(Source:GIGABYTE)
兩款伺服器在 CPU 方面皆安裝 2 顆 AMD EPYC 9005 系列中最頂級 192 核心的 EPYC 9655 處理器。團隊指出,EPYC 9655 的低功耗讓團隊能彈性調整並配置各元件在各題下的最佳電力消耗組合 ,在 6kW 限制下呈現適用於各種考題的優秀效能。
在跨節點互連上,兩機皆採用支援雙埠 200Gb 連接,同時相容 InfiniBand 和乙太網路協議的 NVIDIA ConnectX®-7 網路卡;比賽時並採用 NVIDIA Mellanox QM8700 交換器,提供多達 40 埠、每埠每秒 200Gb 完整雙向頻寬。
記憶體與硬碟在比賽中扮演最佳效能的關鍵後盾,兩款伺服器皆基於支援 12 通道記憶體的處理器平台上搭載 Micron DDR5 6400 記憶體,提供高頻寬支援。其中 G494-ZB4-AAP2 每通道 2 個插槽共 48 條 DIMM 插槽,並提供 12 個 2.5 吋熱抽換硬碟槽;R183-Z90-AAD1 每通道 1 個插槽共 24 條 DIMM 插槽,配備 4 個 3.5 吋/2.5 吋硬碟插槽。團隊得以安裝 12 顆 Solidigm SSD 完成 IO500 的 IO 效能調教,取得優異表現。
除了強大硬體資源的彈性調配,比賽中利用控制風扇轉速與處理器運作時脈等技巧尤為重要。學生透過前人累積的經驗有效防止系統過熱或功率不穩,軟硬體與參賽學生合作無間,為比賽譜出美好樂章。
樹立產學最佳合作模式,藉由出賽打造全新人才培育機制
清大學生團隊拿下第二名的因素很多,軟硬體順利運行為比賽保住基本盤。追溯根本,周志遠教授的 HPC 課程,加上前團隊成員承繼的心法,都累積成團員的豐厚實力。
明確的分工策略也發揮關鍵作用。團隊每道題目都採取至少兩人溝通協作,並將實作過程詳細透明記錄,方便他人隨時接手。透過良好溝通習慣、事前排定時程及有效利用碎片化時間,讓他們在緊湊時間裡做好不同題目的最佳資源配置。
展望未來,周志遠表示將繼續指導學生精進高效能運算知識技術。技鋼科技和清華大學透過比賽互相交流,使跨領域經驗成果和產學合作效益持續最大化。雙方合作不僅孕育台灣高效能計算和系統軟體開發人才,也讓學生在實際競賽中累積寶貴經驗,銜接國際舞台。這份成果代表著台灣在高效能運算領域持續深耕與突破的實力,為未來產業發展奠下更堅實的基礎。

▲ 圖左依序為呂宣陽、紀冠宇、葉宥辰、周志遠教授、林威盛、隊長盛爾葳、學生教練謝東豫(Source:科技新報)
(首圖來源:科技新報)