AMD AI 晶片挨批軟體有缺陷,開箱體驗遠不如輝達

作者 | 發布日期 2024 年 12 月 24 日 15:00 | 分類 AI 人工智慧 , 半導體 , 晶片 line share Linkedin share follow us in feedly line share
AMD AI 晶片挨批軟體有缺陷,開箱體驗遠不如輝達

晶片顧問機構 Semianalysis 著手進行 5 個月的調查後發現,超微(AMD)最新「MI300X」AI 晶片因為重大軟體缺陷、效能不如預期,難以撼動輝達(Nvidia Corp.)的市場主導地位。

The Decoder 23日報導,Semianalysis發表研究報告指出,AMD的軟體有缺陷,若未大量除錯,會讓訓練AI模型變成幾乎不可能的任務。AMD如今在品質、使用易度方面陷入掙扎,而輝達卻持續推出全新功能、工具庫並升級效能,遙遙保持領先。

Semianalysis執行了大量測試,當中包括GEMM標竿、單節點訓練(single-node training)等,最終發現AMD尚無法突破「CUDA護城河」,此乃輝達強大的軟體優勢。

MI300X規格看來令人印象深刻,提供1,307 TeraFLOPS的FP16精度算力、192 GB HBM3記憶體。相較之下,輝達「H100」提供989 TeraFLOPS算力及80 GB記憶體,而較新的「H200」則配備141 GB記憶體。AMD系統的總持有成本也較低,主要是拜定價較便宜、使用更平價的乙太網絡之賜。

然而實務上,這些優勢卻幾乎發揮不了作用。SemiAnalysis指出,旗下分析團隊必須跟AMD工程師一同修正無數軟體缺陷,才能達到堪用的標竿測試結果。相反地,輝達系統一開箱就能順暢運作。

報告稱,「AMD產品開箱後非常難以操作,需要相當大的耐心及努力才能達到可用的狀態」。

SemiAnalysis並揭露,AMD最大GPU雲端客戶Tensorwave,必須免費提供GPU使用時間給AMD團隊來解決軟體問題,這實在瘋狂,畢竟Tensorwave已經支付了這些GPU的費用。

SemiAnalysis建議AMD執行長蘇姿丰(Lisa Su)重金投入軟體開發與測試,尤其應配置數千顆MI300X晶片來做自動化測試──跟進輝達的做法。另外,也建議蘇姿丰簡化複雜的環境變數,實施更好的預設設定。他們寫道:「請讓產品開箱便可用!」

Semianalysis首席分析師Dylan Patel 23日透過社交平台X指出,他跟蘇姿丰開了1.5小時的會議,逐一檢視問題。蘇姿丰坦承AMD軟體方面的不足之處,並認真看待該機構的建議,還向AMD團隊及Semianalysis提出許多問題。很多變革正在進行中!很高興看到即將到來的改進。

蘇姿丰則回應貼文表示,感謝Patel具有建設性的對話。回饋是個禮物、即便它很嚴苛。AMD已大量投入客戶和工作量優化作業,但為支援廣泛的生態系統,尚有許多努力空間。非常感謝大家的回饋。AMD致力打造世界一流的開放軟體,2025年有很多計畫。祝大家佳節愉快!

(本文由 MoneyDJ新聞 授權轉載;首圖來源:AMD

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》