不方便開聲音也沒關係，Pixel 4 Live Caption 功能把任何語音即時轉成字幕

你有沒有這種經驗，當身處公共場合，收到朋友傳來的影片，但不方便播出聲音而又沒有耳機，只能看著影片乾瞪眼，不知道影片中人在說什麼。現在 Google Pixel 4 智慧手機導入 Live Caption 功能，可將任何語音即時轉成字幕，解決尷尬的問題。

影片語音也能用「看」的

影片或語音檔案字幕不但對聽障朋友來說格外重要，對於所有人來說也都有所用處，比方在公共場合、會議中、夜深人靜時，我們都常在關閉聲音的情況下看影片，然而並非所有影片都有字幕，且不同 App 的字幕功能也不盡相同，導致許多短片、聲音訊息、Podcast 等內容無法使用字幕。

為了解決這個問題，Google 為 Android 推出 Live Caption 功能，能在裝置直接將影片、音訊檔案語音轉成字幕，更棒的是轉換過程完全在裝置完成，不需網路連線，因此不但不需負擔數據資費，也能保護隱私並降低延遲。

▲ Live Caption 解決在靜音狀況下看影片的字幕問題。

▲ 當需要在不方便放出聲音的場合看影片，又要聽語音內容時。（Source：影片截圖，下同）

▲ 這時候只要按下 Live Caption 按鍵。

▲ 系統就能將影片語音即時轉成字幕。

透過 AI 強化翻譯

Live Caption 會在運作時調用 3 個裝置執行的深度學習模型，包括辨識語音的遞歸神經網路（Recurrent Neural Network，RNN）序列轉導模型（Sequence Transduction Model）、辨識標點符號的文字基礎遞歸神經網路，以及用於分類語音事件的卷積神經網路（Convolutional Neural Network，CNN），這種模型的協同運作下，可以提供完整的字幕，並能加註標點符號，以使用 [APPLAUSE]、[MUSIC] 等標籤表示鼓掌、音樂等背景音效。

有趣的是，語音事件分類模型不只用於標示背景音效，還能分辨當下是否有語言，因此系統能在有語言出現時才辨識，如此一來就能大量降低整體運算需求，發揮降低記憶體用量與耗電量的效果。

至於辨識標點符號的模型，則是在系統將語音轉為文字後，才開始分析文字，並針對最近辨識的句子預測標點符號，如果下一次語音辨識結果沒有更改預測條件，就能保留先前預測，同樣發揮節省電力消耗的功能，並加快辨識速度。