開發靈感來自兒童讀物，微軟發表 Phi-3 系列新模型

微軟研究人員試圖弄清楚如何將更多功能塞進規模較小的模型，他們最終找出一種創新的訓練方法，靈感竟然來自兒童讀物，新模型 Phi-3 系列因此誕生。

相較於 GPT-4 等大型語言模型（large language model，LLM），微軟新發表的 Phi-3-mini（38 億參數）以更小的資料集進行訓練，具 4K token 和 128K token 兩種上下文長度，目前已在 Microsoft Azure、Hugging Face、Ollama 上對外提供。微軟還計劃未來幾週內推出 Phi-3-small（70 億參數）和 Phi-3-medium（140 億參數）兩種版本。

微軟 AI 平台公司副總裁 Eric Boyd 告訴國外媒體 The Verge，Phi-3-mini 功能與 GPT-3.5 一樣，「只是規模更小」，他強調。

研究人員透過所謂「課程」對 Phi-3 進行訓練，他們的靈感來自於孩子們如何從睡前故事、用字更簡單的書籍或者談論更大主題的句子結構加以學習。

Eric Boyd 補充說，Phi-3 是建立在先前模型迭代所學到的知識上。相較 Phi-1 專注編輯程式，Phi-2 開始學習推論，到了 Phi-3 更加擅長編輯程式和推論。雖然 Phi-3 系列了解一些常識，但在廣度上無法擊敗 GPT-4 或其他大型語言模型。

▲ 微軟 Phi-3 與其他類似規模的模型進行比較。（Source：微軟）

與大型語言模型相比，小型語言模型（small language model，SLM）通常成本更低，在手機和筆電等個人裝置上表現更好。另一媒體《The Information》稍早曾報導，微軟建立一支專注於輕量級 AI 模型的團隊；不只 Phi 系列，微軟還開發一個專門解決數學問題的 Orca-Math 模型。

微軟的競爭對手同樣自行研發小型語言模型，大多數針對簡單的任務，例如文件摘要或做為編輯程式碼的輔助功能。其中，Google 開源的 Gemma 2B（20 億參數）和 Gemma 7B（70 億參數）適合簡單的聊天機器人和語言相關服務。Anthropic 的 Claude 3 Haiku 可閱讀帶有圖表的研究論文並快速摘要內容，而 Meta 新發表的 Llama 3 8B（80 億參數）可輔助聊天機器人和編碼的功能。