Google 的 AI 又進化了！像真人一樣打電話訂位、回郵件

你是那種一打電話就緊張害羞、偏好發郵件和訊息的人嗎？如果是的話，恭喜你！人工智慧已經可以完美解決你的困擾了。

Google 的人工智慧助理 Google Assistant，最近學會了一項新技能：冒充真人給餐廳、髮廊、酒店、咖啡館、電影院……你能想到的所有各種消費場所打電話，幫你預約、查詢訊息……

不信？請看下面的影片：

明明就是真人對不對！

這段對話是真的，而對話中的顧客一方，的確是由 Google Assistant 扮演的……

我們應該都聽過 Google Assistant 的聲音是什麼樣子。這段對話是女聲，聲音的背後是一位真的女生（姓名未知），在 Google 的總部花了幾個月的時間錄製，才將虛擬助手訓練成現在的聲音。

在過去，Google Assistant 以及包括 Siri、Cortana、Alexa 在內的所有虛擬語音助手，用的都是一種標準的、近似於語言課上標準發音、語速等的發音方式。

然而人類在現實中說話，有著各種各樣的口音、語速，語調在不同字和詞上有輕有重，在思考跟不上說話的時候會用「嗯」、「那個」、「you know」之類的填空詞。

這也是為什麼當和虛擬語音助理聊天時總感覺怪怪的，因為儘管你在心理上強迫自己將語音助手當成是人，他們給你的回覆卻總是自信而標準。這讓你下意識立刻察覺到他們不是人，繼而產生一種近似於「自說自話」的尷尬感。

在 2018 年 Google 開發者大會（ I/O）的主題演講中，Google CEO 桑德爾·皮蔡（Sundar Pichai）表示，Google Assistant 部門的一個最重要的目標，就是讓用戶和虛擬助手的對話變得更加自然，就像和真人交流那樣。

（Source：Google）

注意到在剛才的電話中，扮演顧客的 Google Assistant 在整個對話中多次出現了類似於真人的反應。

比如一開始，對方說出了「好的，請稍待一會兒」，之後是短暫的沉默。對方雖然說出了一個請等候的祈使句，在正常的人際交流中，顧客這邊應該表示「好的」、「沒問題」之類的意思，但對於虛擬助理這種以完成指令和回答問題為主要工作的人工智慧而言，它沒有理由對這一句做出任何覆，然而它還是在稍等了大約一秒鐘後做出了一個「嗯哼」（Mm-hmm）的表達。

在通話接近尾聲的位置，對方多次給出了問句，而 Google Assistant 這邊儘管一直用的是陳述句來回答，卻都在句尾用了升調，和人類使用英文進行對話表達時的習慣極為相似。

再比如，在通話中間，對方告知中午 12 點左右沒有空，最近的是下午 1 點多。Google Assistant 的應變方式不是接受 1 點多，而是給了對方一個新的時間範圍，並最終完成了預約。

以假亂真的語音生成能力之外，即興是 Google Duplex 技術的另一個最主要的特色。在第二個案例中，這種即興能力得到了更加充分的展示：

首先，有經驗的朋友們大概已經聽出來了，對方像是個中餐廳……餐廳老闆的英文表達能力有限，並沒有嚴格符合標準的英語語法，但扮演顧客的虛擬助理還是能夠理解。

注意通話中間，餐廳老闆告知「4 個人不用訂位，可以直接來」時，原則上虛擬助理到這裡就可以掛電話了，因為訂位的任務已經完成。然而它沒有掛掉，而是做出了一個堪稱優秀的即興追問：「通常候位時間有多久」。

如果之前就掛掉，這只是一個普通的通話而已，而這個即興的存在，在 Google CEO 桑德爾·皮蔡看來，讓雙方之間互動得更「優雅」（gracefully）了。

Duplex 的功能還不僅限於和對話。在完成一通電話之後，如果取得了結果，Google Assistant 會用通知提醒用戶，並在日曆上記錄事件。

（Source：Google Blog）

皮蔡表示，公司在自然語言理解，深度學習和語言轉文字上投入巨大，而 Duplex 對這三大技術融會貫通。「Duplex 還有很長的路要走，不是所有的電話都完美結束，但這項技術已經能夠理解對話的上下文，每句話所表達的細微的意義差別。」

不過，自然語言理解仍是一項非常高難度，在真實環境中面臨著巨大挑戰的技術。Duplex 在面對極其複雜的語句時，仍然有很大的壓力和錯誤率。還是在預約的場景下，在一個案例中，對方非常口語化地介紹了店家在工作日和週末不同的營業時間，然後自己對同一句中之前的表述做了修改。

但皮蔡還是對 Duplex 充滿信心，「如果最後能做好，這項技術將為商戶和顧客帶來極大的價值。」

除了 Duplex 技術之外，在這次 I/O 大會上，Google 也宣布了虛擬助理其他非常多的功能更新，其中有不少十分強大。

1. 新的聲音：可能用戶已經聽膩了 Google Assistant 的標準聲音，這也是為什麼 Google 決定為它再增加 6 種不同的男聲和女聲。其中就有一種來自於曾經在《樂來越愛你》裡出演過的美國歌手約翰·傳奇（John Legend）。

不過，厲害的並不是請來約翰·傳奇，而在於 Google 為Assistant 生成新聲音的效率有多高。

DeepMind 訓練出了一個深度神經網路模型 WaveNet，能夠高效地生成原始音頻。利用 WaveNet，只用很少量的語料，輔以強大的計算，Google 就可以製作出和原始語料相似度極高的語音形象，花費時間從幾個月降低到了幾百小時。

2. 多輪對話能力進步：在過去，跟 Google Assistant 對話，需要每一句前面都加一個喚醒詞「Ok Google」。從今天開始這個設定終於退役了，因為 Google Assistant 獲得了增強的多輪對話能力。不僅如此，它還能理解你是在跟它還是跟別人說話，不會尷尬地加入到聊天當中。

3. 多重任務處理（Multiple Actions）：自然語言交流的一個特點就是複雜性，一句話裡面可能同時表達多個意思。最直觀的例子，「請看一下今天的天氣發給安妮」、「今天紐約和奧斯汀的天氣怎麼樣」，或者「把廚房的燈和廁所的換氣關掉」。

只要記性不差，正常人都能完成，而且多半會下意識將它們看做是同一個任務。問題是在過去，別提多重任務，某些虛擬助理連一個簡單的任務都完成不了。

不過從今天開始，Google Assistant 將能夠一次性處理多重任務了。

4. Gmail 智慧寫郵件（Smart Compse）：你應該知道 Gmail、Inbox 支援智慧回覆，但過去只有「感謝」、「就這樣」之類的簡單回覆。很快，Gmail 就將獲得一個強大的智慧寫郵件功能。就像搜尋引擎的自動完成一樣，Gmail 也會根據你寫的上一個單詞自動建議下一個單詞，直到你把整個郵件都寫完。

聽起來挺扯的，但不妨看看效果：