聽 6 秒鐘語音，這個 AI 就能知道你長什麼樣子

聲音可以暴露很多訊息，麻省理工學院（MIT）最近一項研究發現，經過訓練的 AI 不僅能從聲音辨別出性別、年齡和種族，甚至能猜出這人大概長什麼樣子。這些「祕密」都藏不住了。

研究人員用一個由數百萬 YouTube 影片剪輯組成的數據集，自我訓練一名為 Speech2Face 的神經網路模型。從最終結果來看，6 秒語音還原人臉的效果還算不錯。

▲ 一共 6 組結果示範，左邊是影片人像，右邊是 AI 根據聲音還原的效果。（Source：MIT，以下同）

Speech2Face 模型的運作大概分為兩部分，一是語音編碼器，負責分析輸入語音，預測相關的臉部特徵；另一個則是臉部解碼器，整合輸入的臉部特徵產生圖像。

MIT 研究團隊指出，他們目的不是為了準確還原說話者的模樣，Speech2Face 模型主要是為了研究聲音跟相貌之間的關聯性。

從訓練結果看，Speech2Face 較能辨識性別，對白種人和亞洲人也較能分辨，另外對 30~40 歲和 70 歲的年齡段聲音命中率稍微高一些。

▲ Speech2Face 似乎傾向將 30 歲以下的說話者年齡猜大，將 40~70 歲的說話者年齡猜小。

除了比較基礎的性別、年齡和種族，Speech2Face 甚至能猜中一些臉部特徵，比如說鼻子結構、嘴唇厚度和形狀、咬合情況，以及大概的臉部骨架。基本上輸入的語音時間越長，AI 準確度會越高。

當然 AI 的「聽覺」也會出錯。研究人員發現，它會將未經歷變聲期的小男孩辨識為女性，判斷錯誤一些說話者的口音，也會搞混年紀……這一點完全可以理解，畢竟聲音還是會騙人的，夜夜伴你入睡的萌妹奶音主播，實際上說不定是個漢子。

▲ Speech2Face 的一些錯誤範例。

研究人員指出，Speech2Face 的局限性，部分原因來自數據集的說話者本身種族多樣性不夠豐富，這也導致它辨認黑人聲音的能力比較弱。

至於他們對這個 AI 模型的應用，有個很可愛的想像：只需要說幾句話，未來 Animoji 和 Gboard 等功能或許就能根據聲音生成你的卡通頭像。

（Source：Speech2face）

不管你信或不信，藏在我們聲音的祕密都正被開發研究，投入各式各樣的場景應用。

卡內基美隆大學計算機副教授 Rita Singh 也主導過一項類似研究，能從聲音猜測說話者的年齡、身高、體重、環境噪音和說話時的空間類型等資訊。她認為聲音藏著豐富而獨特的資訊，「就像你的 DNA 或指紋」。

這項技術後來升級成跟 Speech2Face 相似的語音分析系統，還原人臉的準確度達到 60%~70%，目前正被美國海岸警衛隊用於縮小調查範圍找到惡作劇報警者。據稱，他們每年會接到約 150 通惡作劇電話，這被視為浪費警力，甚至會遭到刑事訴訟。

目前匯豐、渣打、摩根大通等銀行都在用「聲紋」當作身分辨識方式（voice ID）之一，可檢測你的帳戶是否被盜。

大都會人壽保險公司的客服中心，會用一套 AI 系統幫忙識別客戶的情緒和感受，平均準確率達到 82%；一些保險公司甚至會藉此判斷來電者有沒有騙保意圖──如果說話時出現微小停頓，很可能就是在提供虛假資訊。

除此之外，經過訓練的 AI 還被一些公司用於招募新人，從應試者的說話模式分析性格特徵，判斷是否適合招募的職缺。

豐田汽車曾經在 2017 年 CES 大會展出 Concept-i 概念車型，車內配備紅外線鏡頭、感測器、車載語音辨識和對話系統，它們將協助判斷司機是不是處於疲勞駕駛狀態並提醒。

跟 MIT 的卡通頭像相比，Singh 教授的想法似乎要更長遠且宏大。她希望，有朝一日語音辨識技術可用於遠程確診帕金森氏症等疾病。

目前有研究發現，冠狀動脈疾病患者聲音會留有不同的頻率標誌。未來，「聽聲看病」說不定也會跟「聽聲辨臉」一樣成真。

（本文由愛范兒授權轉載；首圖來源：pixabay）

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新