
英國倫敦北部藝術家 Sarah Ezekiel 在 25 年前懷孕期間確診運動神經元疾病(Motor neuron diseases,MND,俗稱漸凍症),隨後完全失去說話能力。近日她透過 AI 技術,僅憑一段 8 秒鐘且雜音極多的家庭錄影帶,成功重建自己的聲音,讓兩個從未聽過母親真實聲音的孩子首次體驗。
Ezekiel 於 2000 年懷第二胎時確診 MND,當時僅 34 歲。這種進行性神經系統疾病會損害運動神經元,導致舌頭、口腔和咽喉肌肉衰弱,部分患者會完全失去說話能力。確診數月內,她不僅失去聲音,手部功能也完全喪失,婚姻也因此破裂。據英國 MND 協會資料,英國每年約 1,000 人確診此病,當中八成患者會出現語音困難。現時電腦合成語音的時機、音調和語氣往往「相當機械化」。
診斷後數年,Ezekiel 開始使用電腦和語音生成技術協助溝通,但合成聲音與她原本的聲音完全不同。她的兩個孩子 Aviva(現年 28 歲)和 Eric(現年 25 歲)成長過程中,只聽過母親透過機器發出的平板機械聲音。
專門開發輔助溝通技術的英國 Bristol 公司 Smartbox,與紐約 AI 語音專家企業 ElevenLabs 合作,為 Ezekiel 展開聲音復原計劃。這項合作屬於 ElevenLabs Impact Program 一部分,該計劃承諾為 100 萬名因 MND、癌症或中風而面臨失聲風險的患者提供免費語音複製服務。
一般情況下,重建個人聲音需要長時間高品質錄音作為基礎。Smartbox 技術專員 Simon Poole 原本要求 Ezekiel 提供一小時音訊資料,但在智慧手機普及之前的年代,擁有合適錄音極為罕見。
最終他們只找到一段 1990 年代的 VHS 家庭錄影帶,片段僅 8 秒長,聲音模糊不清且充滿電視背景雜音。Poole 坦言當時「心情沉重」,認為不可能從如此劣質音訊中重建聲音。
技術團隊採用 ElevenLabs 開發的兩階段 AI 處理方式:首先使用 Voice Isolator 工具從錄影帶中分離出 Ezekiel 的聲音樣本;接著運用經過數千種真實聲音訓練的 AI 系統,填補音訊空隙並預測自然語調,最終生成完整個人化聲音。重建效果超乎預期,不僅完美保留 Ezekiel 原有的倫敦口音,連她過去不太喜歡的輕微口齒不清特徵也一併重現。
Ezekiel 首次聽到重建聲音時表示:「經過這麼長時間,我真的記不起自己的聲音。當我再次聽到時,我幾乎哭了出來,感覺就像奇蹟一般。」
對於從未聽過母親真實聲音的 Eric 而言,這同樣是震撼體驗。他表示:「我們終於能真正感受到她作為一個人的本質。媽媽不再只是角落裡的殘疾人士,配著一個與她毫無關聯的機械人聲音。」女兒 Aviva 也感到驚喜:「我不知道她有 Cockney 口音。在家中聽到這個聲音真的讓我很開心,也很感動。」
Sheffield 大學數據、AI 與社會專家 Susan Oman 博士指出,AI 生成語音相較傳統電腦化選項或預錄語音庫代表重大進步。「這關乎你的個人身份認同。如果聲音與你毫無共鳴,你就不會感覺像自己。」
保留口音同樣至關重要,特別在科技有可能讓聲音標準化的時代。「口音反映你的社會階層和出身。全球各地的人們都在努力重拾失去的口音和方言。」
失聲後的 Ezekiel 並未放棄藝術創作。2012 年起,她透過眼球追蹤技術配合電腦軟體繼續創作,作品銷售收入全數用於 MND 宣傳和慈善活動。她表示:「我很高興重拾真實的自己。這比當機械人好得多。」
(本文由 Unwire HK 授權轉載;首圖來源:ElevenLabs)