Google AI 打電話影片洗板網路，微軟忍不住發聲明彰顯實力

美國時間 5 月 8 日，Google 在 2018 年度開發者大會（Google I/O 2018）介紹了智慧語音助手 Google Assistant 新增的 Duplex，可以打電話給餐廳、髮廊等店家，幫用戶預約時間。

AI 語音助手與人交流、完成指令已不是新鮮事。如果你常跟 Siri 對話，或你有一台亞馬遜 Echo、LINE 熊大等智慧喇叭，你會發現，跟 AI 對話實在太費勁，需要字正腔圓，還要一次次說喚醒詞，無法連續對話。

Duplex 讓人驚訝的是：它不僅用自然流暢的詞句和電話另一頭的人類交流，且對方根本沒有意識到打電話來的居然是個 AI。這是因為 Google Duplex 達成連續對話、加入人在對話時通常會使用的語助詞 emm、uha 等，能理解對話內文，此外還具備主動提供語料的功能。

這樣的雙向對話，一直是微軟、蘋果、亞馬遜、Facebook 這些做對話式人工智慧的公司努力的方向。Google 這次放了大招，獲得很高的關注，微軟顯然坐不住了，趕緊站出來說，且慢，我們才是先做到這項技術突破的。

關於這件事，微軟發了一篇技術聲明。以下為聲明全文：

全雙工語音技術（Full Duplex）的意義在於，它能使「人機互動」進化為「人機交流」。二字之差，價值巨大。

今年 4 月 4 日，我們正式在美國和中國同步發表了 Full Duplex 感官，並預言工業將意識到這技術的價值，加快向這方向集中。我們很高興看到越來越多同業者加入。

其實，人類歷史上第一次與人工智慧進行全雙工語音電話，並不是發生在美國，而是發生在中國。我們很榮幸能將這一桂冠奉獻給中國。自 2016 年 8 月起，微軟（亞洲）網路工程院透過人類用戶主動發起的方式，已讓小冰與人類用戶累計完成了超過 60 萬通電話。

今天，我們公布其中一通發生在兩年前的實際電話錄音，為珍貴的資料，奉獻給全世界說中文的華人。

這技術已經完成產品落地。兩年來，正是在人類的訓練下，小冰已不局限於任何封閉域，而是可針對開放域進行全雙工語音對話。目前，微軟已落地的對話場景包括傳統電話、VoIP 電話和智慧喇叭裝置，微軟小冰的車載路試正在進行。

如果您想要體驗 Full Duplex 全雙工語音，不需等待數週，今天就能。在微軟小冰已落地的產品中，我們建議您使用我們與小米合作的米家生態鏈 Yeelight 智慧硬體產品。在隨附的用戶真實使用影片，您將體會到：

一次喚醒之後的連續對話
微軟小冰對用戶的預測模型
幫助用戶輕鬆完成多重工作
小冰的內容創造能力
以及最重要的：人機情感交流

人工智慧時代已來，讓我們持續創新。

微軟的聲明有了 3 個關鍵點：首先，在技術層面上，微軟今年 4 月 4 日正式發表「全雙工語音互動」技術；其次，事件事實上，微軟在兩年前就達成 AI 與人類通電話；最後，產品落地上，微軟的全雙工語音互動已具備多個場景，且搭載全雙工語音互動技術的微軟小冰已經出現在智慧喇叭──米家生態鏈 Yeelight 智慧硬體產品。

微軟所說的全雙工語音互動技術（Full-Deplex Voice）與 Google Duplex 的技術框架和達成功能應該類似。

微軟對「全雙工語音互動技術」的定義是：與既有的單輪或多輪連續語音辨識不同，這項新技術可即時預測人類將說出的內容，生成因應並控制對話節奏，能理解對話場景在訴說者／傾聽者之間角色轉變，還可以辨識說話人的性別、有幾個人在說話。

也就是說，與只能做到單輪語音的智慧語音助手不同，能連續對話的全雙工語音互動能達成和人類雙向交流，而這種雙向交流最常見的場景就是通電話。因為通電話是短時間內持續對話的過程，對通話雙方的即時反應要求最高。

3 月 28 日，微軟也在北京召開媒體交流會，詳細介紹過「全雙工語音互動技術」。

全雙工語音互動背後主要有兩個關鍵技術：一個是預測模型，邊聽邊想；例如，當用戶說出一句話，小冰會先回答「嗯，你說」，然後再完成指令，這樣就可以填補完成指令的空白時間。

另一個是生成模型（LSTM），能理解場景，自動生成回覆。正常的對話都不是單向的一問一答，小冰也會在適當的時候主動提供內容，並能知道用戶完成指令沉默幾秒後自動結束對話。現在運用全雙工語音互動技術的微軟小冰所有回覆都是自己生成的，有別於傳統的基於模組、搜尋的回覆。

Google Duplex 的技術分析也提到，Duplex 的核心是 RNN（迴圈神經）網路，由 TensorFlow Extended（RFX）構建，Google 用匿名電話對話資料訓練 Duplex 的 RNN 網路，這個網路會使用 Google 自動語音辨識（ASR）的辨識結果文字檔，同時也會使用音檔的特徵、對話歷史、對話參數（比如要預定的服務、目前時間）等。

匯入語音先經過自動語音辨識系統（ASR）處理，生成的文字檔會與內文資料及其他一起匯入 RNN 網路，生成的回應文字再透過文字轉語音（TTS）系統讀出來。

Google 用的生成模型是 RNN，微軟用的是 LSTM，從體驗來看，兩者的效果很接近。跟 Yeelight 的微軟小冰對話時，能做到一次喚醒連續對話長達 20 分鐘，有適當的語氣詞，能主動提供預料，主動結束對話。

Google I/O 大會最後一天，獲得年度圖靈獎的 Alphabet 新任董事長 John Hennessy 宣布：「在預約領域，Google Duplex 通過了圖靈測試。」也就是說，目前 Google Duplex 與人類對話，人類無法辨識其是機器人。這個消息，確實令人振奮。與搭載微軟全雙工語音互動技術的微軟小冰相比，Google Duplex 的一大特色是音色和語調與真人幾乎一致，這是他們花費數月採集真人聲音訓練的結果。

Google 稱，今年夏天會開始基於 Google Assistant 測試 Duplex，從預訂餐廳、預訂髮廊、詢問假日的營業時間這種事項開始。微軟小冰則將人工智慧助手和聊天機器人結合起來，努力進入各場景，包括傳統電話、VoIP 電話和智慧喇叭裝置，微軟小冰的車載路測也在進行。

微軟全雙工語音技術已在做產品落地，卻被還在測試的 Google Duplex 搶占鋒頭，難免有點著急。

然而如果回想技術發展的歷程，我們會記得，1844 年，莫爾斯從華盛頓到巴爾的摩拍了人類史上第一封電報，說的是：「上帝呀，你究竟幹了些什麼？」1876 年，貝爾發明世界第一台電話，他說的第一句話「沃森先生，快來幫我」成為人類第一句透過電話傳輸的語音。然而，人工智慧助手與人類的第一通電話顯然難以定義了，畢竟我們在人工智慧的發展上，還有很長的路要走。

（本文由雷鋒網授權轉載；首圖來源：shutterstock）