新開發 AI 聲音偵測模型登場，判斷聲音是否 AI 生成準確度達 94%

生成式 AI 技術普及令假資訊和詐騙等問題變得更加嚴重，要如何判斷內容是否 AI 生成已經成爲一個備受關注的問題。有開發公司最近推出新型的 AI 聲音偵測模型，據稱其準確度可達 94%。

Resemble AI 最近發表的新一代 DeepFake 偵測模型 Detect-2B 準確率據稱高達約 94%。Detect-2B 的架構基於 Mamba-SSM 或狀態空間模型開發，採用隨機概率模型，能更好地配合音頻訊號的變化。模型在包含未見過的說話者、DeepFake AI 生成聲音和不同語言的測試集上都表現出色，在六種不同語言中檢測 DeepFake 聲音的準確率至少達到 93%。

Resemble AI 表示，Detect-2B 的子模型「由一個凍結的音頻表示模型和插入其關鍵層的適應模組組成」。適應模組可以將模型的焦點轉向人工生成痕跡，這些偶然出現的「瑕疵」能有助區分真實聲音和假聲音。模型可以在不需要每次聆聽新片段時重新訓練的情況下，預測音頻中 AI 生成的部分。Resemble AI 表示，他們將繼續改進 Detect-2B，專注於表示學習、先進模型架構和數據擴展等範疇。