以後公共場合講話請摀嘴，Google 人工智慧現在用看的就知道你在說什麼

還記得 AlphaGo 嗎？DeepMind 這家專門研究人工智慧的英國公司，於 2014 年被 Google 收購，經過 AlphaGo 與職業棋師的圍棋大戰勝利後一炮而紅。而近期，他們與牛津大學的研究員利用人工智慧設計出史上最精準的讀唇語軟體。

究竟他們是如何辦到的？DeepMind 研究員訓練一個神經網路系統（稱為 Watch, Listen, Attend, and Spell），讓它看上千小時的 BBC 政論節目，涉及 118,000 條句子還有 17,500 個特殊詞彙，再來解讀每一支影片的唇語，準確率可達 46.8%。這個數據看起來好像沒有很好，但相比專業讀唇師僅有 12.4% 的準確率而言，人工智慧真的厲害多了。

▲ 就算是人類，也僅能讀出 12.4% 的唇語。（Source：New Scientist）

這項研究後來被牛津大學拿去研究並開發出新的一套技術，稱之為 LipNet，在測試中竟然可以達到 93.4% 的準確率，高出真人讀唇 40 個百分點。但要聲明的是，這項測試是牛津大學研究員請志願者讀出制式化的句子，並錄製下來給系統及專業讀唇人士看的，而且該影片涉及到的特殊詞彙僅有 51 個。而 DeepMind 的實驗則是拿更生活化的影片給系統看，當然準確度也就沒有那麼高。

DeepMind 的研究員表示，這項研究可以用來幫助聽力受損的人們理解他人的對話，同時也可被利用來替影片下字幕。另外，像是 Siri 或是 Alexa 這類語音助理，也可利用這項技術擴充，讓使用者只要對著鏡頭說話，不用出聲語音助理也能辨識，之後大家總算不用在大庭廣眾之下對著手機下指令了。