人工智慧訓練的浮點運算量(Flops)每年都大幅增長,自然語言處理(NLP)、機器視覺(CV)和語音識別學習過去十年,以 2 年 15 倍速度攀升。自從 Google 在 2017 年推出 Transformer 模型,更激增到「2 年 750 倍」。但瓶頸並非運算能力,而是記憶體的「容量」(Capacity)、「頻寬」(Bandwitdh)與「延遲」(Latency),無論晶片內、晶片之間還是人工智慧加速器間通訊。
本篇文章將帶你了解 :冰凍三尺,非一日之寒 山窮水盡疑無路,柳暗花明又一村 減少主記憶體存取和搬移:GPU 雙雄的選擇