筆電跑百億參數大模型？AMD 沒問題

AI PC 賽道，每家晶片或設備企業都好怕落後。

目前蘋果生態大幅領先，上週 Mac Studio 評測成功部署運行 DeepSeek Q4 量化版 671B 和 70B 版，且 token 吞吐性能不錯，展現 M3 Ultra 晶片及高達 512GB 統一記憶體的實力。

x86 陣營，最有競爭力的「車隊」AMD 試圖加速超車。

3 月 18 日 AMD AI PC 創新峰會，高級副總裁、運算與圖形總經理 Jack Huynh 展示 AMD 架構筆電跑 DeepSeek 大模型的能力。搭載 AMD Ryzen AI Max+ 395 處理器的筆電，順利跑 DeepSeek-通義千問融合 7B 大模型。Token 秒速並沒有公開，但肉眼觀測，結合不同機型測試經驗，現場速度應該至少達 15tok/s。

現場 demo 區顯示，結果依賴 AMD StrixHalo LLM 軟體，AMD 自研大模型環境。邏輯簡單說，AMD 會最佳化支援的大模型，降低單位 token 啟動參數成本，然後再將支援實裝到用戶設備。

Ryzen AI Max 處理器也支援更高記憶體分配。AI Max 支援最高 96GB 記憶體分配，讓處理器獲高階獨立顯卡的性能，既能 AI 訓練和推理運算，也可分給遊戲用。最佳化後，參數量再大也不愁。demo 區示範可見，前述同款晶片在華碩 ROG 幻 X 2025 款筆電，最高可跑 Meta Llama 3.1 70B 大語言模型。

儘管參數量極大，對硬體要求也極高，遠超過去業界對行動運算設備終端推理能力的認知上限──筆電現在也能順利輕鬆跑數百億參數的大模型了。

AMD 目的是確保基於大模型的企業級應用和研發，普及至 x86 陣營筆電，甚至更輕便的行動運算設備。AMD AI PC 環境支援 DeepSeek 1.5B、7B 等主流大模型。如果筆電不足，AMD 也為重型使用者提供能跑 DeepSeek R1 全參數大模型的伺服器方案，領先輝達一步（後者可能也會更新 AI 運算集群模組化產品）。

現場展示兩種方案，一是 AMD 方案，基於 vllm 框架，採 8 × W7900 / 78000 顯卡，完全離線終端部署 DeepSeek 671B。

二是 AMD 和群聯電子合作的 aiDAPTIV+ 方案，讓顯卡經 NAND Flash 擴展記憶體，打破單卡記憶體瓶頸。以現有 AMD 顯卡，同樣可單機跑 DeepSeek 671B 全參數等級訓練。

當然，多數人只是 AI 使用者，而非開發者，故 AMD 也和 OEM 夥伴一起，展示各主流消費級 AI 應用。Demo 之一由清醒異構開發，基於 AMD Ryzen AI 平台大模型圖片工具「繪夢師」，支援文生圖、圖生圖、邊畫邊生圖等，且完全可終端執行，不需連網。

聯想的個人智慧體「小天」是 PC 端 AI 入口，大模型可根據個人數據訓練和最佳化，前台有任務分解和規劃、自然互動、長期記憶、工具調用等功能。

最近一年 AI 發展太迅猛，上限一再提高，大模型選項也與日俱增。但受制設備終端運算力，PC 業面臨很大挑戰。考慮到最大同陣營夥伴英特爾還在掙扎公司經營，AMD 身為 x86 陣營底層運算頂尖企業，必須肩負責任，迎接挑戰，領導改革，讓 AI 經 AI PC 進入一般用戶和各行業。AMD 也給 OEM 夥伴許多露出機會，微軟、聯想、華碩、宏碁、惠普等都帶來基於最新 AMD Ryzen AI 處理器家族的 PC 新品。

AI PC 品牌和機型選擇權寬度，AI PC 產品本身的大模型運算能力，以及不同消費場景的豐富度，對 PC 品牌和晶片商在 AI 時代守住陣營市占尤其重要。

（本文由愛范兒授權轉載；首圖來源：Coolcaesar, CC BY-SA 4.0, via Wikimedia Commons）