高階顯卡也能訓練模型,AI 研究人員提出「GaLore」減少記憶體用量

作者 | 發布日期 2024 年 03 月 11 日 18:26 | 分類 AI 人工智慧 line share follow us in feedly line share
高階顯卡也能訓練模型,AI 研究人員提出「GaLore」減少記憶體用量


隨著大型語言模型的規模越來越大,若對所有模型參數進行訓練,成本勢必非常高昂,研究人員設法減少記憶體使用量,其中新方法 GaLore(Gradient Low-Rank Projection)可讓訓練過程更省記憶體,甚至用家中電腦搭配高階顯示卡就能訓練。

訓練大型語言模型為運算基礎設施帶來無法忽視的記憶體挑戰,主要是因權重大小和優化器(optimizer)狀態不斷增加。常見記憶體減少方法,例如微軟研究團隊所提出 LoRA(Low-Rank Adaptation),概念是凍結原本預訓練模型權重,減少訓練參數量和優化器狀態,也能達到很好的微調(fine-tuning)效果。

不過,LoRA 通常在預訓練和微調階段表現不佳,因為它將參數搜尋限制在 low-rank subspace 並改變訓練動態,性能通常比原本訓練方法差。

日前發表的《GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection》新論文,研究人員提出 GaLore 是一種新的模型訓練策略,可讓模型使用全部參數進行學習,同時比 LoRA 更省記憶體。

GaLore 在優化器狀態下將記憶體使用量減少多達 65.5%,同時在 LLaMA 1B 和 7B 架構下使用最多 19.7B token 的 C4 資料組進行預訓練,依然保持良好性能,及在 GLUE 任務上微調 RoBERTa 的效率和性能。與 BF16 基準相比,8 位元的 GaLore 進一步減少優化器記憶體多達 82.5%,總訓練記憶體則減少 63.3%。

GaLore 還有一大優點,是讓原本只能用在大型伺服器上的大型語言模型,透過家用電腦的高階顯示卡(例如 NVIDIA RTX 4090)也能進行訓練,研究人員首次證明在具有 24GB 記憶體的 GPU 預訓練 7B 參數模型是可行的。

(首圖來源:NVIDIA GeForce