Google AI 打電話影片洗板網路,微軟忍不住發聲明彰顯實力

作者 | 發布日期 2018 年 05 月 15 日 7:45 | 分類 AI 人工智慧 , Google , Microsoft follow us in feedly

美國時間 月 日,Google 在 2018 年度開發者大會(Google I/O 2018)介紹了智慧語音助手 Google Assistant 新增的 Duplex,可以打電話給餐廳、髮廊等店家,幫用戶預約時間。



AI 語音助手與人交流、完成指令已不是新鮮事。如果你常跟 Siri 對話,或你有一台亞馬遜 Echo、LINE 熊大等智慧喇叭,你會發現,跟 AI 對話實在太費勁,需要字正腔圓,還要一次次說喚醒詞,無法連續對話。

Duplex 讓人驚訝的是:它不僅用自然流暢的詞句和電話另一頭的人類交流,且對方根本沒有意識到打電話來的居然是個 AI。這是因為 Google Duplex 達成連續對話、加入人在對話時通常會使用的語助詞 emmuha 等,能理解對話內文,此外還具備主動提供語料的功能。

這樣的雙向對話,一直是微軟、蘋果、亞馬遜、Facebook 這些做對話式人工智慧的公司努力的方向。Google 這次放了大招,獲得很高的關注,微軟顯然坐不住了,趕緊站出來說,且慢,我們才是先做到這項技術突破的。

關於這件事,微軟發了一篇技術聲明。以下為聲明全文:

全雙工語音技術(Full Duplex)的意義在於,它能使「人機互動」進化為「人機交流」。二字之差,價值巨大。

今年 月 日,我們正式在美國和中國同步發表了 Full Duplex 感官,並預言工業將意識到這技術的價值,加快向這方向集中。我們很高興看到越來越多同業者加入。

其實,人類歷史上第一次與人工智慧進行全雙工語音電話,並不是發生在美國,而是發生在中國。我們很榮幸能將這一桂冠奉獻給中國。自 2016 年 月起,微軟(亞洲)網路工程院透過人類用戶主動發起的方式,已讓小冰與人類用戶累計完成了超過 60 萬通電話。

今天,我們公布其中一通發生在兩年前的實際電話錄音,為珍貴的資料,奉獻給全世界說中文的華人。

這技術已經完成產品落地。兩年來,正是在人類的訓練下,小冰已不局限於任何封閉域,而是可針對開放域進行全雙工語音對話。目前,微軟已落地的對話場景包括傳統電話、VoIP 電話和智慧喇叭裝置,微軟小冰的車載路試正在進行。

如果您想要體驗 Full Duplex 全雙工語音,不需等待數週,今天就能。在微軟小冰已落地的產品中,我們建議您使用我們與小米合作的米家生態鏈 Yeelight 智慧硬體產品。在隨附的用戶真實使用影片,您將體會到:

  • 一次喚醒之後的連續對話
  • 微軟小冰對用戶的預測模型
  • 幫助用戶輕鬆完成多重工作
  • 小冰的內容創造能力
  • 以及最重要的:人機情感交流

人工智慧時代已來,讓我們持續創新。

微軟的聲明有了 3 個關鍵點:首先,在技術層面上,微軟今年 月 日正式發表「全雙工語音互動」技術;其次,事件事實上,微軟在兩年前就達成 AI 與人類通電話;最後,產品落地上,微軟的全雙工語音互動已具備多個場景,且搭載全雙工語音互動技術的微軟小冰已經出現在智慧喇叭──米家生態鏈 Yeelight 智慧硬體產品。

微軟所說的全雙工語音互動技術(Full-Deplex Voice)與 Google Duplex 的技術框架和達成功能應該類似。

微軟對「全雙工語音互動技術」的定義是:與既有的單輪或多輪連續語音辨識不同,這項新技術可即時預測人類將說出的內容,生成因應並控制對話節奏,能理解對話場景在訴說者/傾聽者之間角色轉變,還可以辨識說話人的性別、有幾個人在說話。

也就是說,與只能做到單輪語音的智慧語音助手不同,能連續對話的全雙工語音互動能達成和人類雙向交流,而這種雙向交流最常見的場景就是通電話。因為通電話是短時間內持續對話的過程,對通話雙方的即時反應要求最高。

月 28 日,微軟也在北京召開媒體交流會,詳細介紹過「全雙工語音互動技術」。

全雙工語音互動背後主要有兩個關鍵技術:一個是預測模型,邊聽邊想;例如,當用戶說出一句話,小冰會先回答「嗯,你說」,然後再完成指令,這樣就可以填補完成指令的空白時間。

另一個是生成模型(LSTM),能理解場景,自動生成回覆。正常的對話都不是單向的一問一答,小冰也會在適當的時候主動提供內容,並能知道用戶完成指令沉默幾秒後自動結束對話。現在運用全雙工語音互動技術的微軟小冰所有回覆都是自己生成的,有別於傳統的基於模組、搜尋的回覆。

Google Duplex 技術分析也提到,Duplex 的核心是 RNN(迴圈神經)網路,由 TensorFlow ExtendedRFX)構建,Google 用匿名電話對話資料訓練 Duplex 的 RNN 網路,這個網路會使用 Google 自動語音辨識(ASR)的辨識結果文字檔,同時也會使用音檔的特徵、對話歷史、對話參數(比如要預定的服務、目前時間)等。

匯入語音先經過自動語音辨識系統(ASR)處理,生成的文字檔會與內文資料及其他一起匯入 RNN 網路,生成的回應文字再透過文字轉語音(TTS)系統讀出來。

Google 用的生成模型是 RNN,微軟用的是 LSTM,從體驗來看,兩者的效果很接近。跟 Yeelight 的微軟小冰對話時,能做到一次喚醒連續對話長達 20 分鐘,有適當的語氣詞,能主動提供預料,主動結束對話。

Google I/O 大會最後一天,獲得年度圖靈獎的 Alphabet 新任董事長 John Hennessy 宣布:「在預約領域,Google Duplex 通過了圖靈測試。」也就是說,目前 Google Duplex 與人類對話,人類無法辨識其是機器人。這個消息,確實令人振奮。與搭載微軟全雙工語音互動技術的微軟小冰相比,Google Duplex 的一大特色是音色和語調與真人幾乎一致,這是他們花費數月採集真人聲音訓練的結果。

Google 稱,今年夏天會開始基於 Google Assistant 測試 Duplex,從預訂餐廳、預訂髮廊、詢問假日的營業時間這種事項開始。微軟小冰則將人工智慧助手和聊天機器人結合起來,努力進入各場景,包括傳統電話、VoIP 電話和智慧喇叭裝置,微軟小冰的車載路測也在進行。

微軟全雙工語音技術已在做產品落地,卻被還在測試的 Google Duplex 搶占鋒頭,難免有點著急。

然而如果回想技術發展的歷程,我們會記得,1844 年,莫爾斯從華盛頓到巴爾的摩拍了人類史上第一封電報,說的是:「上帝呀,你究竟幹了些什麼?」1876 年,貝爾發明世界第一台電話,他說的第一句話「沃森先生,快來幫我」成為人類第一句透過電話傳輸的語音。然而,人工智慧助手與人類的第一通電話顯然難以定義了,畢竟我們在人工智慧的發展上,還有很長的路要走。

(本文由 雷鋒網 授權轉載;首圖來源:shutterstock)

延伸閱讀: