阿里巴巴達摩院發表人工智慧語音點餐方案

「兩杯拿鐵，需要做成冷的，少冰加脫脂奶，嗯……然後還要個卡布奇諾，放點焦糖，對了，一杯拿鐵在這裡喝，其他的帶走，哦，都是大杯的。」走進餐廳，不按次序條理點餐，也不用擔心店員來不及接收訊息了。在人工智慧持續發展下，機器系統可以解讀到這種不按次序條理的口語，在餐廳嘈雜環境下理解客戶所說的一字一句，並據此輸入修正後的點餐內容。這是近日阿里巴巴達摩院機器智慧技術實驗室在阿里雲「雲棲大會‧武漢峰會」上發表的一套多模態語音互動方案。

這套方案由阿里巴巴達摩院機器智慧技術實驗室自主研發，並在阿里雲進行商業化輸出應用，當中包含機器智慧技術實驗室在聲源定位、語音增強、人臉和圖像辨識、自然語言處理、流式口語理解、長句多意圖理解及對話管理等最新的前沿研究成果，所有核心技術為阿里巴巴獨家或自有專利技術，將逐步透過學術論文對外公開。

升級系統只需數十秒就可完成點餐

這套方案的特點在於致力使用人與人之間的自然交流方式，來提供公共空間、特定應用場景下的自然人機互動體驗。這套方案在 2017 年 12 月時已首次亮相，應用於上海地鐵語音售票概念機，而且在今年 3 月正式於上海南站服務市場，這套地鐵售票機應用的技術成功解決在公共場所嘈雜環境下的語音辨識準確率問題。乘客不需要在繁複的地鐵線路上找出自己想要到的車站及路線，根據測試數據，普通的買票程序需要約 30 秒，而語音購票只需要 10 秒左右。

而這次發表的語音點餐機，則為原有方案的進一步升級。新系統不但可以應用到新零售背景下的智慧咖啡店，提高排隊點餐的效率，讓整體過程更流暢；同時，一般的語音互動機器，都需要由人類發出「語音喚醒」，例如先說︰「Hi，點餐機」，叫醒機器之後才開始說出指令，不過阿里巴巴達摩院機器智慧技術實驗室的流式多輪多意圖口語理解技術，就打破了這個常規，人類只需隨意說出指令，機器就可以自行理解需要。

在阿里雲「雲棲大會‧武漢峰會」現場示範，同樣的點餐內容，人工點餐用了 2 分 37 秒左右，而透過人工智慧語音系統點餐，則只是用了不到 50 秒；而與自助點餐不同之處，就是利用語音，顧客只需直接說出想要的東西，而不用在螢幕上找東找西，更簡單方便。

可延展性可迅速複製至各行業應用

更重要的是，此系統具有業務知識圖譜技術，可以結合到不同商業場景，迅速複製及應用於交通、新零售及城市服務等各行各業。

阿里巴巴機器智慧技術實驗室語音互動智慧首席科學家鄢志傑介紹，依託於業務知識圖譜自我調整的技術，這套方案能夠快速的在更多場景落地，目前已經落地的場景還有車內語音助理、電話智慧客戶服務、可免遙控器操作的遠場語音電視、可精準區分多人對話的智慧麥克風等。「未來我們希望實現公眾空間裡的萬物皆能對話」。

未來除了地鐵購票及餐廳點餐之外，車站機場的問路諮詢、醫院裡的掛號諮詢等更多不同的場景，都可以應用上這種多模態語音互動方案。

豐富經驗技術已於多個領域推進實踐

事實上，阿里雲的「智慧語音互動」已在智慧語音領域實踐多方面的應用，包括法庭庭審記錄、智慧客戶服務、影片審核和即時字幕轉寫、聲紋驗證、物聯網等多個場景。全中國有近 300 家法院和超過 6,000 家法庭在使用阿里雲的技術，每年有超過 1.2 億次客戶服務電話由阿里雲的智慧語音互動方案來協助人類接聽。

在傳統語音互動產品方面，阿里雲智慧語音互動研究的技術平台，能夠精準轉換使用者的語音為對網路內容和服務的意圖，觸達手機、IoT 裝置、互聯網汽車、電視、智慧音箱等各類裝置，例如與斑馬網路、上汽合作的的榮威互聯網汽車、與海爾合作的人工智慧電視等。