Meta 研究指硬體故障會造成 AI 輸出錯誤

作者 | 發布日期 2024 年 06 月 25 日 16:30 | 分類 AI 人工智慧 , Facebook , 零組件 line share Linkedin share follow us in feedly line share
Loading...
Meta 研究指硬體故障會造成 AI 輸出錯誤

生成式 AI 雖然強勁,但偶爾會出現奇怪的生成結果,開發方一直希望可以找出問題所在並解決。Meta 近日就發表研究報告指出,硬體故障也是其中一個導致 AI 系統產生錯誤或低品質輸出的原因。

Meta 的報告指,這種被稱為「靜默數據損壞」(Silent Data Corruption,SDC)的現象,可能會在 AI 推理過程中扭曲模型參數,影響輸出結果的準確性和可靠性。Meta 強調,隨著 AI 硬體系統日益複雜和異質化,這些模型更容易受到硬體故障的影響。

為了量化 AI 模型對參數損壞的脆弱性,Meta 提出了「參數脆弱性因子」(Parameter vulnerability factor,PVF)指標。PVF 概念是建立在去年由英特爾和密西根大學研究人員提出的架構脆弱性因子(AVF)基礎之上,可適用於不同的硬體故障模型,並可根據不同的模型和任務進行調整。研究人員認為,PVF 不僅可以評估參數損壞對模型推理的影響,還可以擴展到訓練階段,評估參數損壞對模型收斂能力的影響。

Meta 使用其自訂內容推薦工具 DLRM 進行了模擬實驗。結果顯示,在某些情況下,只是位元翻轉(Bit Flip)就可能導致每 1,000 次推理中有 4 次出現錯誤,如果有其他問題影響則會更加嚴重。因此研究認為,硬體故障對 AI 系統性能有着潛在影響,而在 AI 系統營運和硬體設計上,也需要在故障保護與性能效率之間尋求平衡。

(本文由 Unwire Pro 授權轉載;首圖來源:shutterstock)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》