蘋果新模型 FS-DFM 只需八步驟,即可產生高品質長文

作者 | 發布日期 2025 年 10 月 14 日 14:15 | 分類 AI 人工智慧 , Apple line share Linkedin share follow us in feedly line share
Loading...
蘋果新模型 FS-DFM 只需八步驟,即可產生高品質長文

蘋果公司今日發表新研究,FS-DFM(Few-Step Discrete Flow-Matching)語言模型,能以驚人速度產生長文本,速度比對手快 128 倍。這項研究由蘋果和俄亥俄州立大學研究員 Amin Karimi Monsefi 和 Nikhil Bhendawade 等聯合進行。

傳統語言模型如ChatGPT,屬自回歸模型,逐字產生文本,靠用戶提示和之前產生字元。擴散模型則能並行產生多字元,並多次更新精煉文本,最終形成完整回應。

FS-DFM模型創新處為僅需八次快速精煉更新產生完整段落,質量與需要千步餘擴散模型相當。研究員採三步驟達成目標:首先,訓練模型處理不同精煉更新預算;再來用指導性「教師」模型幫助每次更新時更大且更準確;最後調整每次更新方式,使模型以更少更穩定步驟達成最終結果。

擁有70億和80億參數的Dream擴散模型及LLaDA擴散模型比較,FS-DFM困惑度和熵兩項重要指標表現出色。困惑度是衡量語言模型文本品質的標準指標,數值越低、文本準確性和自然度越高;熵則衡量模型選擇每個單詞的信心度。研究顯示,FS-DFM所有更新次數均能保持較低困惑度和穩定的熵。

(Source:論文

考慮到結果及潛力,研究員預定公開程式和模型檢查點,以促進可重複性和更多研究。想深入了解蘋果方法及模型細節的讀者,可參考arXiv預印本論文,含多種性能範例,並以顏色標記每個單詞更新次數。

(首圖來源:Flickr/Celsim Junior CC BY 2.0)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》