《愛范兒》報導過歐美音樂節有個特別工作:手語翻譯員。
聽障者雖然聽不見或聽不清楚音樂,但可用手語翻譯員感染力極強的動作、臉部表情、肢體語言,感受音樂律動、氣氛多熱烈,這可能是正常人想不到的。其實無論線上線下,需手語翻譯員的地方還有很多,但僧多粥少。
英國人 Sally Chalk 2002 年開了手語翻譯公司,20 年經營下來,規模可觀,預約手語翻譯員時間也縮短到 30 分鐘,但她還是不滿足。聽障者能否馬上找到手語翻譯,就像影音網站打開字幕方便?她的答案是,讓 AI 加入。
從網路到現實,讓聽障者多用「母語」
2022 年 Sally Chalk 創立新創公司 Signapse,專注開發生成式 AI 手語翻譯軟體,將文字即時翻譯成美語手語和英文手語。5 月 Signapse 拿到 200 萬英鎊種子輪融資,50 萬來自英國政府,目標是現實場景,如火車站、機場等交通樞紐。美國辛辛那提/北肯塔基國際機場已和 Signapse 合作,螢幕投放手語,「說出」歡迎、安全、出發、到達等資訊。
而 AI 如何運作?Signapse 基於大型手語資料庫,用生成對抗網路(GAN)和深度學習創造逼真、盡可能準確的虛擬手語翻譯員。虛擬形象基於真人手語翻譯員,每次商用真人都能分成。考慮到機場目的地、出發時間、登機門號碼經常變動,整合交通數據,Signapse 手語翻譯可即時更新。
Signapse 也沒有忽視網路需求,支援網站和影音串流平台手語翻譯。雖然 YouTube 等大平台有隱藏式字幕,但聽障者更喜歡手語,因手語有自己語法結構和表達形式,讓他們體驗更好。
提到手語時必須分別美語手語、英文手語,因手語也是包羅萬象。聯合國統計,全世界約七千萬人以手語為主要交流方式,全世界手語有 300 多種,僅美國就有 50 萬人「說」美語手語。
Signapse 能做的其實也有限,只涵蓋美語和英文手語者,以及某些垂直場景。兩年前 Signapse 每天發出約五千次英文手語交通公告。Signapse 希望服務更普及,拓展到教育等領域,更個人化,支援使用者自定義虛擬手語翻譯員外觀。
2022 年冬奧,中國央視新聞和百度智慧雲曦靈聯合打造 AI 手語主播上線,天津理工大學聾人工學院參與手語語料標註。AI 手語主播背後,百度智慧雲曦靈 AI 手語平台能滿足醫院、車站、銀行等快速手語翻譯需求,和 Signapse 英雄所見略同。
如果手語翻譯改進空間比海更深,至少聽障者取得公共資訊的方式可經 AI 改善,持續掀起波浪。
手語界的多鄰國
聽障者也會「聽」音樂?看文字是否就夠了?這些是典型聽力正常人邏輯。應該反過來問:音樂節怎麼讓聽障者也能參與?網路怎麼讓聽障者體驗更舒服?不是某個人流如織的車站多放一塊螢幕,而是螢幕本就該放在那裡。
更多公司、更多個人藉助技術力量,讓手語越來越有存在感。正常人學手語是較易想到的方式,如 PopSign 可邊玩邊學手語,由 Google、羅徹斯特理工學院、喬治亞理工學院合作開發,有 Android 和 iOS 版,最主要用戶群體是聽障孩童的正常聽力父母。
吸收背單字從「abandon」(放棄)開始也以放棄終結的教訓,PopSign 不只無聊播放手語影片,而是用小遊戲增強學習手語的興趣和信心,和瘋狂催人打卡的多鄰國異曲同工。
想當手語界「多鄰國」的,還有美國公司 SLAIT,也是沉浸式互動課程和測驗,如果回答正確,AI 導師會給予立即回饋,適量情緒價值。不過教手語只是 SLAIT 第二選擇,他們一開始想做的,其實是即時視訊聊天和翻譯 AI 手語工具。但巧婦難為無米之炊,SLAIT 只是小團隊,沒有足夠資料庫,也沒有足夠資金,比起直接翻譯整句手語,教單字更簡單,但同樣有價值。
翻譯手語的辛苦,就交給財大氣粗的科技巨頭解決了。
2023 年 8 月,聯想巴西開發基於 AI 的即時聊天翻譯 App,翻譯葡萄牙文手語,之後會推廣到其他語言手語。當聽障者對鏡頭比手語,演算法會即時翻譯成葡萄牙文,傳送給接收者。這類工具可多多益善,更與手語教學服務互補,讓聽障者更主動,能成為開啟對話者。
Google 更為產品導向,舉辦 2023 年 Kaggle AI 手語辨識比賽。主題很有趣:參賽者基於聽障者自拍的 300 多萬種手指拼寫素材,構建以智慧相機快速追蹤手指、手掌和臉部的手指拼寫模型。手指拼寫屬手語的一種,手指不同形狀和位置可表示某英文字母,對很多殘障人士來說,手指拼寫比用智慧手機打字快多了。
改善手語辨識、構建手指拼寫模型,都是為了讓聽障者直接用更擅長的手語溝通,而不是用較不熟悉的打字和語音辨識去用手機搜尋、地圖、簡訊等功能。這也有助開發手語轉語音應用,打破聽障者無法語音呼叫數位助理的僵局。
甚至很多語音優先產品,一開始就沒有考慮不能口說的使用者,該是時候補上漏洞了。
Google 首席無障礙研究產品經理 Sam Sepah 接受富比士採訪時提到,目標是讓手語成為用 Google 產品時的通用語言選項。這也該是網際網路的目標:讓手語成為數位世界的通用語言。
多鄰國為語言學習軟體,提供還算平等的學習機會,但 AI 手語產品讓人感覺不該有的限制正在解除,到處都能互通有無。
AI 越強,越需重視人性
5 月 GPT-4o 公布時,某 Demo 影片頗動人:GPT-4o 可當視障者的眼睛,「看到」周圍環境。視障者從 AI 得知,白金漢宮上空飄著旗幟,河裡鴨子悠閒嬉戲,計程車快要到了,嘴角隨 AI 愉悅語調上揚。
科技能打開新世界的大門,是否也能反過來理解,殘障者原本生活在不是為他們設計的世界?
WHO 數據顯示,全球有 4.3 億人有殘疾性聽力受損,手語翻譯員數量遠遠不夠,美國聽障者與手語翻譯員比例約 50:1。所以目前 AI 手語員只有補充和錦上添花功用,還不到「搶飯碗」的地步。
以上 AI 手語產品都還是小規模、垂直領域、特定地區專用,補充人類不能及的地方。筆者 6 月看到很酷 AI 手語產品,是羅格斯大學、卡內基美隆大學等研究員,將公開手語影片做成含八種語言手語的資料庫訓練出 SignLLM:第一個多語言手語 AI 模型。
包括多種手語,透過文字提示詞產生手語,這不是很方便嗎?但研究員又說,請外界不要誇大此成果,示範影片並非模型直接輸出,實際使用仍很不便。聽障專家也表示,影片中 AI 手語翻譯品質參差不齊,讓人半懂不懂,更有完全理解不能,且缺乏表情,雖有潛力,但要改善的地方太多。
最重要的是讓聽障者加入,採納他們的意見做好產品,因「沒有參與,就沒有決策」。
且無障礙產品通常沒法像大模型和 AI 硬體發表時激動人心,總是只說功能有哪些,服務誰,希望以後做到更好,也不會「貪多嚼不爛」。風投眼裡也是小眾市場、潛力未知、未必能回收投資,但李飛飛曾說,AI 是為了幫助人,AI 越強大越要重視人性。
所有人都能不怕錯過班機,所有人都該順利和產品互動,所有人都能享受音樂節。曾經沒看到、沒聽到的也該被科技光芒照耀。更多人需求滿足,更多人能力增強,讓我們得到更多,失去更少。