蘋果新模型 FS-DFM 只需八步驟，即可產生高品質長文

蘋果公司今日發表新研究，FS-DFM（Few-Step Discrete Flow-Matching）語言模型，能以驚人速度產生長文本，速度比對手快 128 倍。這項研究由蘋果和俄亥俄州立大學研究員 Amin Karimi Monsefi 和 Nikhil Bhendawade 等聯合進行。

傳統語言模型如ChatGPT，屬自回歸模型，逐字產生文本，靠用戶提示和之前產生字元。擴散模型則能並行產生多字元，並多次更新精煉文本，最終形成完整回應。

FS-DFM模型創新處為僅需八次快速精煉更新產生完整段落，質量與需要千步餘擴散模型相當。研究員採三步驟達成目標：首先，訓練模型處理不同精煉更新預算；再來用指導性「教師」模型幫助每次更新時更大且更準確；最後調整每次更新方式，使模型以更少更穩定步驟達成最終結果。

擁有70億和80億參數的Dream擴散模型及LLaDA擴散模型比較，FS-DFM困惑度和熵兩項重要指標表現出色。困惑度是衡量語言模型文本品質的標準指標，數值越低、文本準確性和自然度越高；熵則衡量模型選擇每個單詞的信心度。研究顯示，FS-DFM所有更新次數均能保持較低困惑度和穩定的熵。

（Source：論文）

考慮到結果及潛力，研究員預定公開程式和模型檢查點，以促進可重複性和更多研究。想深入了解蘋果方法及模型細節的讀者，可參考arXiv預印本論文，含多種性能範例，並以顏色標記每個單詞更新次數。

（首圖來源：Flickr/Celsim Junior CC BY 2.0）

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新

想請我們喝幾杯咖啡？