
台灣新創 APMIC(Accelerate Private Machine Intelligence Company)與繁體中文語言模型研究社群 Twinkle AI 合作,8 日推出台灣第一個可在手機端運行的 30 億(3B)參數繁體中文推理模型「Formosa-1」,雙方也聯手開源高效評測框架「Twinkle Eval」,共同推動台灣 AI 技術發展和在地化應用。
Formosa-1
Formosa-1 由 APMIC 與 Twinkle AI 社群聯手,並在國網中心研發團隊的技術支持和經驗分享下完成開發,是台灣第一款可在手機端運行的 3B 參數大型語言模型。這款模型以 NVIDIA NeMo 端對端平台為核心的 APMIC PrivAI 產品模型蒸餾技術進行訓練,並以 MIT 授權方式完全開放模型權重,期望推動繁體中文開源 AI 發展。
為了提升模型推理能力,Formosa-1 使用貼近台灣在地思維鏈(Taiwan Chain of Thought,TCoT)的資料,搭配 NVIDIA NeMo Data Curator 加速資料管理服務,確保在法律推理、邏輯思辨及數學推演方面展現卓越表現。語言資料建構方面,Formosa-1 訓練資料涵蓋 100B 規模的高品質繁體中文詞元(token),包括新聞、法律、論文、社會討論等,確保 AI 對繁體中文語境的精準理解和應用。
▲ Formosa-1 是台灣第一款可在手機端運行的 3B 參數大型語言模型。
Twinkle Eval
模型效能取決於評測機制的效能,傳統評測工具的逐題推論順序式流程在龐大的題目數量或運行時需要較長推論時間和算力,嚴重制約評測效能和運算資源使用效率。為此,APMIC 也與 Twinkle AI 社群開發「Twinkle Eval」,是一款專為大型推理模型設計的開源評測框架。它與 NVIDIA NeMo Evaluator 評估模型進行深度整合,支援大規模並行測試,確保模型在多領域的穩定性和準確性。
Twinkle Eval 透過隨機化選項排序確保測試公平性,避免模型記憶固定選項順序,並引進重複測試機制,透過多次獨立推論來驗證模型的穩定性。此外,Twinkle Eval 內建台灣通識與專業能力混合題庫(TMMLU+)、台灣法律語料測試集(tw-legal-benchmark-v1)及 MMLU 基準測試集,確保測試範圍的廣度和準確性。
在 MMLU(Massive Multitask Language Understanding)語言理解挑戰中,Formosa-1 透過 Twinkle Eval 進行評測,獲得 52 分成績,相較 Meta 原生 Llama-3.2-3B-Instruct 提升了 46 分,展現它在推理能力上的優勢。這項成果證明,透過在地語言技術的強化與精準數據訓練,台灣 AI 技術已與國際標準接軌,能夠進一步為產業應用提供高效解決方案。
APMIC 透過上個月發表的企業私有化 AI 解決方案「PrivAI」,支援 1B 到 500B 規模的地端 AI 模型,滿足不同產業需求,協助企業打造專屬 AI 大腦,進一步降低 AI 部署成本並提升運算效能。
2025 年預期成為地端 AI 導入元年,企業能夠透過 Formosa-1 和 Twinkle Eval 有效提升運算效能並降低 AI 部署成本。APMIC 將與 Twinkle AI 深化合作,共同推動繁體中文 AI 生態圈發展。
(圖片來源:APMIC)