2022 年 Neflix 推出普普藝術先驅安迪‧沃荷(Andy Warhol)的人物紀錄片《安迪‧沃荷:時代日記》(The Andy Warhol Diaries),透過生成式 AI 的協助,利用聲音模擬的技術讓安迪‧沃荷本人在片中擔任旁白,讓觀眾一邊聽著藝術家本人的聲音,一邊觀賞其不凡的人生紀錄。
在這技術的背後,是由來自加拿大的聲音科技新創Resemble AI,其在今年宣布獲得800萬美元(約新台幣2.4億元)的A輪募資。Resemble AI提供聲音複製以及即時翻譯服務,除了讓安迪‧沃荷的聲音再現外,也成為超過上萬名遊戲直播主使用的工具。
▲ Netflix與加拿大新創Resemble AI合作推出的《安迪‧沃荷:時代日記》紀錄片利用聲音複製的技術,讓已過世的安迪‧沃荷聲音為紀錄片旁白配音。(Source:影片截圖)
起源於遊戲直播,Resemble AI試著將聲音科技變得生活化
為什麼遊戲直播主會需要「聲音轉換」的服務?
因為使用變聲效果所營造的氣氛,可以讓觀眾更容易進入遊戲場景、身歷其境,甚至能讓直播主擁有更鮮明的個人特色,在競爭中脫穎而出。
2019年Resemble AI創辦人Zohaib Ahmed正於轉職階段,由於自己待過遊戲產業,也有人工智慧的技術背景,因此決定運用AI提供聲音轉換的服務,創造以語音為使用者體驗核心的新體驗,而成立了Resemble AI。
▲ Resemble AI創辦人Zohaib Ahmed。(Source:Zohaib Ahmed)
Resemble AI最初主要與遊戲直播產業進行合作,標榜直播主只要提供3分鐘的原聲參考音檔,便可透過深度學習技術訓練電腦複製其說話語氣,當直播主列出希望AI協助創造的句子,系統就會以直播主的聲音將句子讀出來,甚至還可以依據其喜好,增加不同的情緒、改變既有的語調,讓轉換出的聲音多一份真實感。
Zohaib Ahmed接受《路透社》採訪時曾透露,Resemble AI目前的使用者已超過100萬人,合作的企業夥伴也已超過200間,包含音樂製作人、遊戲工作室等。
隨著企業規模的擴展,Resemble AI也開始提供多樣化的聲音轉換應用服務,包含將聲音複製的功能應用至翻譯領域中,透過生成式AI技術的協助,使用者只要提供音檔及希望轉換成的翻譯文本,便可在短短幾分鐘內收到轉換成不同語言的音檔,協助許多內容創作者增加與不同國籍粉絲互動的機會。
目前Resemble AI提供兩種付費方案,包含每月24美元(約新台幣750元)的入門方案,以及每月449美元(約新台幣1.4萬元)的專業方案,同時也提供根據企業所需而推出的客製化功能。
利用聲音浮水印標示曾受AI修正的音段,降低聲音再製可能的倫理危機
像這樣的生成式AI技術是當前的當紅炸子雞,儘管科技的革新為人類的生活開啟新的可能,但隨著使用新科技的方式及目的不同,也未必對社會帶來的是全然的好處,2022年百萬YouTuber小玉利用深偽(deepfake)技術所引發震驚社會的換臉事件,便是一個典型的例子。
Zohaib Ahmed表示,在試著將人工智慧開放給所有人使用之際,「倫理問題」是無法避而不談的議題。而Resemble AI也為了避免可能產生的風險,著手推出多種配套措施。
除了在系統中列出使用者必須遵守的使用規範外,也要求使用者在每一次進行新聲音轉換專案前,必須先錄製一段系統隨機指定的句子,或是上傳一段想要請AI複製的原聲檔案,此舉不僅是做為聲音建模的標準,也是一種類聲音切結書(consent clip)。當使用者後續想上傳不同的聲音檔案時,系統偵測檔案聲音不相符的情況,就會限制使用者的權限。
▲ 使用者上傳音檔進行聲音複製前,系統會先要求使用者提供一小段音檔做為聲音範本,如果後續上傳的音檔相差太多,系統將自動阻擋使用者進一步使用聲音建置服務。(Source:影片截圖)
此外,Resemble AI也推出「PerTh Watermarker」聲音浮水印服務,如同許多公司會在自有圖片上附上公司logo以避免有心人士盜用,Resemble AI利用人類大多僅能專注於聽見特定頻率聲音的特性,在系統所製作出的音檔中加入一小段人類難以發現的間斷性音頻做為浮水印(inaudible watermark),以便日後系統在進行聲音掃描時,做為辨別該音檔是否為聲音來源者實際說出的內容,還是透過生成式AI捏造的。
Zohaib Ahmed表示,做為一位研究者及企業家,他們深知自己所推出的服務可能會帶來的影響,並表示當使用者使用他們平台創造出喜歡的聲音時,他們必定將採取不同方式來保護這些聲音的來源。同時,也在自己的Twitter上宣布,他們所提供的PerTh Watermarke服務將在近期開放原始碼,給予其餘有同樣需要的軟體開發者使用。
肯定新科技推出之際,也為最壞的結果做好準備
儘管現今PerTh Watermarker的服務還僅限於偵測由Resemble AI改造過的音訊,但團隊也不斷在精進他們的技能,並推出由生成式AI及深度學習共同偵測檔案是否有經過深偽技術的「Resemblyzer」專案,透過開放原始碼的形式,期待這樣的技術交流能減少社會上相關聲音盜用事件的發生。
儘管新科技的推出背後仍有許多風險,但Resemble AI從創立至今仍舊堅持著AI應用的基本原則,包含使用到AI的應用程式應開放其演算法,並告知使用者程式背後是如何運作,更重要的是所製作出的成品,必須要能夠讓第三者得知是透過人工智慧而製作而成的。
當與Netflix合作的紀錄片推出後,Zohaib Ahmed在接受藝文雜誌《Frieze》專訪時曾提到他對生成式AI應用的看法,儘管透過AI將已逝世的藝術家再次獻聲一舉在藝術圈中引起討論,他仍肯定這項科技帶來的改變,並表示:「生成式AI的出現,讓過往不可能存在的應用能夠成真。」
- Voice cloning platform Resemble AI lands $8M
- Why The Andy Warhol Diaries Recreated the Artist’s Voice With AI
- AI localization tool claims to translate your words in your voice
- When Was Resemble AI Founded?
- Resemble AI Raises $8M and Launches Deepfake Voice Detector
- AI startup founder Zohaib Ahmed: ‘I’ll probably never join a large company again’
- Voice cloning startup Resemble AI Raises $8 million in Series A round
- The AI Team that Brought Back Andy Warhol
- Introducing Resemble Clone – a creative tool for crafting speech
(本文由 創業小聚 授權轉載;首圖來源:Resemble AI)