聽 6 秒鐘語音,這個 AI 就能知道你長什麼樣子

作者 | 發布日期 2019 年 06 月 11 日 7:30 | 分類 AI 人工智慧 , 科技趣聞 Telegram share ! follow us in feedly


聲音可以暴露很多訊息,麻省理工學院(MIT)最近一項研究發現,經過訓練的 AI 不僅能從聲音辨別出性別、年齡和種族,甚至能猜出這人大概長什麼樣子。這些「祕密」都藏不住了。

研究人員用一個由數百萬 YouTube 影片剪輯組成的數據集,自我訓練一名為 Speech2Face 的神經網路模型。從最終結果來看,6 秒語音還原人臉的效果還算不錯。

▲ 一共 6 組結果示範,左邊是影片人像,右邊是 AI 根據聲音還原的效果。(Source:MIT,以下同)

Speech2Face 模型的運作大概分為兩部分,一是語音編碼器,負責分析輸入語音,預測相關的臉部特徵;另一個則是臉部解碼器,整合輸入的臉部特徵產生圖像。

MIT 研究團隊指出,他們目的不是為了準確還原說話者的模樣,Speech2Face 模型主要是為了研究聲音跟相貌之間的關聯性。

從訓練結果看,Speech2Face 較能辨識性別,對白種人和亞洲人也較能分辨,另外對 30~40 歲和 70 歲的年齡段聲音命中率稍微高一些。

▲ Speech2Face 似乎傾向將 30 歲以下的說話者年齡猜大,將 40~70 歲的說話者年齡猜小。

除了比較基礎的性別、年齡和種族,Speech2Face 甚至能猜中一些臉部特徵,比如說鼻子結構、嘴唇厚度和形狀、咬合情況,以及大概的臉部骨架。基本上輸入的語音時間越長,AI 準確度會越高。

當然 AI 的「聽覺」也會出錯。研究人員發現,它會將未經歷變聲期的小男孩辨識為女性,判斷錯誤一些說話者的口音,也會搞混年紀……這一點完全可以理解,畢竟聲音還是會騙人的,夜夜伴你入睡的萌妹奶音主播,實際上說不定是個漢子。

▲ Speech2Face 的一些錯誤範例。

研究人員指出,Speech2Face 的局限性,部分原因來自數據集的說話者本身種族多樣性不夠豐富,這也導致它辨認黑人聲音的能力比較弱。

至於他們對這個 AI 模型的應用,有個很可愛的想像:只需要說幾句話,未來 Animoji 和 Gboard 等功能或許就能根據聲音生成你的卡通頭像。

(Source:Speech2face

不管你信或不信,藏在我們聲音的祕密都正被開發研究,投入各式各樣的場景應用。

卡內基美隆大學計算機副教授 Rita Singh 也主導過一項類似研究,能從聲音猜測說話者的年齡、身高、體重、環境噪音和說話時的空間類型等資訊。她認為聲音藏著豐富而獨特的資訊,「就像你的 DNA 或指紋」。

這項技術後來升級成跟 Speech2Face 相似的語音分析系統,還原人臉的準確度達到 60%~70%,目前正被美國海岸警衛隊用於縮小調查範圍找到惡作劇報警者。據稱,他們每年會接到約 150 通惡作劇電話,這被視為浪費警力,甚至會遭到刑事訴訟。

目前匯豐、渣打、摩根大通等銀行都在用「聲紋」當作身分辨識方式(voice ID)之一,可檢測你的帳戶是否被盜。

大都會人壽保險公司的客服中心,會用一套 AI 系統幫忙識別客戶的情緒和感受,平均準確率達到 82%;一些保險公司甚至會藉此判斷來電者有沒有騙保意圖──如果說話時出現微小停頓,很可能就是在提供虛假資訊。

除此之外,經過訓練的 AI 還被一些公司用於招募新人,從應試者的說話模式分析性格特徵,判斷是否適合招募的職缺。

豐田汽車曾經在 2017 年 CES 大會展出 Concept-i 概念車型,車內配備紅外線鏡頭、感測器、車載語音辨識和對話系統,它們將協助判斷司機是不是處於疲勞駕駛狀態並提醒。

跟 MIT 的卡通頭像相比,Singh 教授的想法似乎要更長遠且宏大。她希望,有朝一日語音辨識技術可用於遠程確診帕金森氏症等疾病。

目前有研究發現,冠狀動脈疾病患者聲音會留有不同的頻率標誌。未來,「聽聲看病」說不定也會跟「聽聲辨臉」一樣成真。

(本文由 愛范兒 授權轉載;首圖來源:pixabay