不方便開聲音也沒關係,Pixel 4 Live Caption 功能把任何語音即時轉成字幕

作者 | 發布日期 2019 年 10 月 31 日 8:15 | 分類 AI 人工智慧 , Android , app follow us in feedly


你有沒有這種經驗,當身處公共場合,收到朋友傳來的影片,但不方便播出聲音而又沒有耳機,只能看著影片乾瞪眼,不知道影片中人在說什麼。現在 Google Pixel 4 智慧手機導入 Live Caption 功能,可將任何語音即時轉成字幕,解決尷尬的問題。

影片語音也能用「看」的

影片或語音檔案字幕不但對聽障朋友來說格外重要,對於所有人來說也都有所用處,比方在公共場合、會議中、夜深人靜時,我們都常在關閉聲音的情況下看影片,然而並非所有影片都有字幕,且不同 App 的字幕功能也不盡相同,導致許多短片、聲音訊息、Podcast 等內容無法使用字幕。

為了解決這個問題,Google 為 Android 推出 Live Caption 功能,能在裝置直接將影片、音訊檔案語音轉成字幕,更棒的是轉換過程完全在裝置完成,不需網路連線,因此不但不需負擔數據資費,也能保護隱私並降低延遲。

▲ Live Caption 解決在靜音狀況下看影片的字幕問題。

透過 AI 強化翻譯

Live Caption 會在運作時調用 3 個裝置執行的深度學習模型,包括辨識語音的遞歸神經網路(Recurrent Neural Network,RNN)序列轉導模型(Sequence Transduction Model)、辨識標點符號的文字基礎遞歸神經網路,以及用於分類語音事件的卷積神經網路(Convolutional Neural Network,CNN),這種模型的協同運作下,可以提供完整的字幕,並能加註標點符號,以使用 [APPLAUSE]、[MUSIC] 等標籤表示鼓掌、音樂等背景音效。

有趣的是,語音事件分類模型不只用於標示背景音效,還能分辨當下是否有語言,因此系統能在有語言出現時才辨識,如此一來就能大量降低整體運算需求,發揮降低記憶體用量與耗電量的效果。

至於辨識標點符號的模型,則是在系統將語音轉為文字後,才開始分析文字,並針對最近辨識的句子預測標點符號,如果下一次語音辨識結果沒有更改預測條件,就能保留先前預測,同樣發揮節省電力消耗的功能,並加快辨識速度。

目前英文版 Live Caption 可在 Pixel 4 和 Pixel 4 XL 等手機使用,並會在今年下放到 Pixel 3 系列,Google 也計劃將功能推廣到其他 Android 裝置,並支援更多語言,讓更多人享用此功能。

(本文由 T客邦 授權轉載;首圖來源:Google AI )

延伸閱讀: