開發靈感來自兒童讀物,微軟發表 Phi-3 系列新模型

作者 | 發布日期 2024 年 04 月 24 日 17:36 | 分類 AI 人工智慧 , Microsoft line share follow us in feedly line share
開發靈感來自兒童讀物,微軟發表 Phi-3 系列新模型


微軟研究人員試圖弄清楚如何將更多功能塞進規模較小的模型,他們最終找出一種創新的訓練方法,靈感竟然來自兒童讀物,新模型 Phi-3 系列因此誕生。

相較於 GPT-4 等大型語言模型(large language model,LLM),微軟新發表的 Phi-3-mini(38 億參數)以更小的資料集進行訓練,具 4K token 和 128K token 兩種上下文長度,目前已在 Microsoft Azure、Hugging Face、Ollama 上對外提供。微軟還計劃未來幾週內推出 Phi-3-small(70 億參數)和 Phi-3-medium(140 億參數)兩種版本。

微軟 AI 平台公司副總裁 Eric Boyd 告訴國外媒體 The Verge,Phi-3-mini 功能與 GPT-3.5 一樣,「只是規模更小」,他強調。

研究人員透過所謂「課程」對 Phi-3 進行訓練,他們的靈感來自於孩子們如何從睡前故事、用字更簡單的書籍或者談論更大主題的句子結構加以學習。

Eric Boyd 補充說,Phi-3 是建立在先前模型迭代所學到的知識上。相較 Phi-1 專注編輯程式,Phi-2 開始學習推論,到了 Phi-3 更加擅長編輯程式和推論。雖然 Phi-3 系列了解一些常識,但在廣度上無法擊敗 GPT-4 或其他大型語言模型。

▲ 微軟 Phi-3 與其他類似規模的模型進行比較。(Source:微軟

與大型語言模型相比,小型語言模型(small language model,SLM)通常成本更低,在手機和筆電等個人裝置上表現更好。另一媒體《The Information》稍早曾報導,微軟建立一支專注於輕量級 AI 模型的團隊;不只 Phi 系列,微軟還開發一個專門解決數學問題的 Orca-Math 模型。

微軟的競爭對手同樣自行研發小型語言模型,大多數針對簡單的任務,例如文件摘要或做為編輯程式碼的輔助功能。其中,Google 開源的 Gemma 2B(20 億參數)和 Gemma 7B(70 億參數)適合簡單的聊天機器人和語言相關服務。Anthropic 的 Claude 3 Haiku 可閱讀帶有圖表的研究論文並快速摘要內容,而 Meta 新發表的 Llama 3 8B(80 億參數)可輔助聊天機器人和編碼的功能。

(首圖來源:shutterstock)