AMD AI 晶片挨批軟體有缺陷，開箱體驗遠不如輝達

晶片顧問機構 Semianalysis 著手進行 5 個月的調查後發現，超微（AMD）最新「MI300X」AI 晶片因為重大軟體缺陷、效能不如預期，難以撼動輝達（Nvidia Corp.）的市場主導地位。

The Decoder 23日報導，Semianalysis發表研究報告指出，AMD的軟體有缺陷，若未大量除錯，會讓訓練AI模型變成幾乎不可能的任務。AMD如今在品質、使用易度方面陷入掙扎，而輝達卻持續推出全新功能、工具庫並升級效能，遙遙保持領先。

Semianalysis執行了大量測試，當中包括GEMM標竿、單節點訓練（single-node training）等，最終發現AMD尚無法突破「CUDA護城河」，此乃輝達強大的軟體優勢。

MI300X規格看來令人印象深刻，提供1,307 TeraFLOPS的FP16精度算力、192 GB HBM3記憶體。相較之下，輝達「H100」提供989 TeraFLOPS算力及80 GB記憶體，而較新的「H200」則配備141 GB記憶體。AMD系統的總持有成本也較低，主要是拜定價較便宜、使用更平價的乙太網絡之賜。

然而實務上，這些優勢卻幾乎發揮不了作用。SemiAnalysis指出，旗下分析團隊必須跟AMD工程師一同修正無數軟體缺陷，才能達到堪用的標竿測試結果。相反地，輝達系統一開箱就能順暢運作。

報告稱，「AMD產品開箱後非常難以操作，需要相當大的耐心及努力才能達到可用的狀態」。

SemiAnalysis並揭露，AMD最大GPU雲端客戶Tensorwave，必須免費提供GPU使用時間給AMD團隊來解決軟體問題，這實在瘋狂，畢竟Tensorwave已經支付了這些GPU的費用。

SemiAnalysis建議AMD執行長蘇姿丰（Lisa Su）重金投入軟體開發與測試，尤其應配置數千顆MI300X晶片來做自動化測試──跟進輝達的做法。另外，也建議蘇姿丰簡化複雜的環境變數，實施更好的預設設定。他們寫道：「請讓產品開箱便可用！」

Semianalysis首席分析師Dylan Patel 23日透過社交平台X指出，他跟蘇姿丰開了1.5小時的會議，逐一檢視問題。蘇姿丰坦承AMD軟體方面的不足之處，並認真看待該機構的建議，還向AMD團隊及Semianalysis提出許多問題。很多變革正在進行中！很高興看到即將到來的改進。

蘇姿丰則回應貼文表示，感謝Patel具有建設性的對話。回饋是個禮物、即便它很嚴苛。AMD已大量投入客戶和工作量優化作業，但為支援廣泛的生態系統，尚有許多努力空間。非常感謝大家的回饋。AMD致力打造世界一流的開放軟體，2025年有很多計畫。祝大家佳節愉快！

Thanks @dylan522p for the constructive conversation today. Feedback is a gift even when it’s critical. We have put a ton of work into customer and workload optimizations but there is lots more we can do to enable the broad ecosystem. I appreciate all the feedback and desire to…

— Lisa Su (@LisaSu) December 24, 2024