晶片顧問機構 Semianalysis 著手進行 5 個月的調查後發現,超微(AMD)最新「MI300X」AI 晶片因為重大軟體缺陷、效能不如預期,難以撼動輝達(Nvidia Corp.)的市場主導地位。
The Decoder 23日報導,Semianalysis發表研究報告指出,AMD的軟體有缺陷,若未大量除錯,會讓訓練AI模型變成幾乎不可能的任務。AMD如今在品質、使用易度方面陷入掙扎,而輝達卻持續推出全新功能、工具庫並升級效能,遙遙保持領先。
Semianalysis執行了大量測試,當中包括GEMM標竿、單節點訓練(single-node training)等,最終發現AMD尚無法突破「CUDA護城河」,此乃輝達強大的軟體優勢。
MI300X規格看來令人印象深刻,提供1,307 TeraFLOPS的FP16精度算力、192 GB HBM3記憶體。相較之下,輝達「H100」提供989 TeraFLOPS算力及80 GB記憶體,而較新的「H200」則配備141 GB記憶體。AMD系統的總持有成本也較低,主要是拜定價較便宜、使用更平價的乙太網絡之賜。
然而實務上,這些優勢卻幾乎發揮不了作用。SemiAnalysis指出,旗下分析團隊必須跟AMD工程師一同修正無數軟體缺陷,才能達到堪用的標竿測試結果。相反地,輝達系統一開箱就能順暢運作。
報告稱,「AMD產品開箱後非常難以操作,需要相當大的耐心及努力才能達到可用的狀態」。
SemiAnalysis並揭露,AMD最大GPU雲端客戶Tensorwave,必須免費提供GPU使用時間給AMD團隊來解決軟體問題,這實在瘋狂,畢竟Tensorwave已經支付了這些GPU的費用。
SemiAnalysis建議AMD執行長蘇姿丰(Lisa Su)重金投入軟體開發與測試,尤其應配置數千顆MI300X晶片來做自動化測試──跟進輝達的做法。另外,也建議蘇姿丰簡化複雜的環境變數,實施更好的預設設定。他們寫道:「請讓產品開箱便可用!」
Semianalysis首席分析師Dylan Patel 23日透過社交平台X指出,他跟蘇姿丰開了1.5小時的會議,逐一檢視問題。蘇姿丰坦承AMD軟體方面的不足之處,並認真看待該機構的建議,還向AMD團隊及Semianalysis提出許多問題。很多變革正在進行中!很高興看到即將到來的改進。
蘇姿丰則回應貼文表示,感謝Patel具有建設性的對話。回饋是個禮物、即便它很嚴苛。AMD已大量投入客戶和工作量優化作業,但為支援廣泛的生態系統,尚有許多努力空間。非常感謝大家的回饋。AMD致力打造世界一流的開放軟體,2025年有很多計畫。祝大家佳節愉快!
Thanks @dylan522p for the constructive conversation today. Feedback is a gift even when it’s critical. We have put a ton of work into customer and workload optimizations but there is lots more we can do to enable the broad ecosystem. I appreciate all the feedback and desire to…
— Lisa Su (@LisaSu) December 24, 2024