AI 決策行為轉為量化指標，Appier 提出「風險感知決策」框架

Appier 深化 AI 創新技術與前瞻研究，研究團隊尤其聚焦代理式 AI（Agentic AI）與大型語言模型等領域。最新研究論文《回答、拒絕或猜測？探究語言模型的風險感知決策》提出一套可系統化衡量「語言模型在不同風險情境下決策策略」的評估框架，透過創新方法顯著提升模型在高風險應用場景中的決策可靠性。

這次研究針對企業最關注的「AI 幻覺與決策可靠性」問題，提出「風險感知決策」（Risk-Aware Decision-Making）框架，將大型語言模型在不同風險情境下的決策行為轉化為可量化指標，為企業導入 AI 自主運作建立更完整的治理基礎。

傳統語言模型的評估方式，多以「是否答對」作為主要指標。在企業應用場景中，「答錯的代價」與「拒答的價值」往往截然不同。這次研究在維持原有任務題目的前提下，引進「答對獎勵、答錯懲罰、拒答成本」等設定，系統化建立不同風險情境。語言模型依據自身能力、對答案的信心程度及風險條件進行判斷，選擇「回答、拒答或猜測」，並以是否能最大化預期報酬作為衡量指標，以評估決策品質與策略合理性。

藉由「風險感知決策」評估框架，研究團隊發現，目前多數大型語言模型在不同風險情境下，普遍出現「策略失衡」。例如高風險情境下（錯誤可能造成重大商業損失），模型仍傾向過度猜測；而在低風險情境下，模型卻又過度保守、拒絕回答。這種決策不穩定性，將限制 AI 在企業應用場景中的自主化與安全性。研究進一步指出，問題並非完全源自模型知識不足，而是模型不擅長將多項能力「自發性整合為穩定的決策策略」。

為了改善上述問題，研究團隊提出「技能拆解」（Skill Decomposition）方法，將模型的決策任務拆解成 3 個步驟分別完成：先解題得到初步答案，再評估自己對解答的信心程度，最後依風險條件做期望值推理，進而合併判斷「答題或拒答」的最佳策略。透過步驟拆解的推理架構，模型能更有效地整合多項能力，在高風險情境下做出更合理、更穩定的決策，為企業級 AI 提供一條具體、可落地的提升路徑。

這篇研究論文獲得 OpenAI「語言模型為何會有幻覺」研究論文的引用，研究成果也將進一步應用在 Appier 代理式 AI 驅動的廣告雲、個人化雲及數據雲產品線，協助企業客戶能以更可信任的方式推進自主化工作流程。

「Agentic AI 要走進企業關鍵流程，不僅在於『更聰明』，更要自主決策能否『更可靠』。」Appier 執行長暨共同創辦人游直翰表示，「這次研究將 LLM『風險感知』轉化為可量化方法論，有助於強化企業級可信任基礎，推動 Agentic AI 更快、更穩健落地企業場景，加速把 AI 能力轉化為可規模化交付的商業價值與 ROI。」

（首圖來源：Appier）