Meta 推出 Llama 2 Long 模型,處理長指令表現更佳

作者 | 發布日期 2023 年 10 月 05 日 8:10 | 分類 AI 人工智慧 , Facebook line share follow us in feedly line share
Meta 推出 Llama 2 Long 模型,處理長指令表現更佳


Meta 加緊開發 AI 技術,Llama 2 就是主力大型語言模型產品,最近推出 Llama 2 Long,以 Llama 2 為基礎提升長文本處理效能,據稱部分應用表現甚至比 Anthropic Claude 2 和 OpenAI GPT-3.5 Turbo 更優秀。

Meta 最近於 arXiv 發表論文,提及新模型 Llama 2 Long,據稱是「透過 Llama 2 持續預訓練,並在向上採樣(Upsample)長文本資料庫用更長訓練序列改善」版本,可接受高達 32,768 個 Token 指令輸入。以長文本指令測試,表現比 GPT-3.5 Turbo(最多 16,000 字)及 Claude 2(最多 100,000 字)更佳。

Meta 論文表示,透過真人回饋的強化學習(RLHF),也就是真人監督下獎勵正確答案,並使用 Llama 2 chat 自己產生的合成數據,提升 Llama 2 Long 於常見 LLM 應用的表現,包括編碼、數學、語言理解、常識推理及回答用戶問題等。不過架構與 Llama 2 沒有太大不同,只是對應更長指令做必要小修改。結果是,以開源大型語言模型來說,表現已相當優秀,難怪開源 AI 開發社群對這沒有大肆宣傳的消息拍手叫好。

(本文由 Unwire Pro 授權轉載;首圖來源:Meta