台灣在地開源的虛擬歌手──徵音梅林

作者 | 發布日期 2016 年 09 月 04 日 0:00 | 分類 數位音樂 , 科技趣聞 , 軟體、系統 follow us in feedly

現代的電腦與機器人越來越厲害,要全面取代人類的工作是指日可待了,人類在各行各業節節敗退,當然連聲音這一行也是囉,今日的電腦語音機器人不但維妙維肖,而且唱歌方面還能跟真人歌手一較高下了呢。筆者自身其實就是開源虛擬歌手:徵音梅林的計畫主持人,剛好近期一年一度的 COSCUP 開源人年會上,有發表今年的工作成果,所以就來分享本篇。



什麼是虛擬歌手

在介紹徵音梅林之前,筆者認為,還是要先認識市場的標竿──初音未來,就是那個網路 PTT 上常見的「初音只是一套軟體!」「初音?抽牌來決鬥吧!」的那個「初音」。

YOUTUBE截圖

▲ 虛擬歌手初音未來的演唱會上有大批粉絲參與(Source:YouTube 截圖)

初音未來(原文:初音ミク)是由日本北海道的 Crypton 公司所發行的專業音樂製作軟體,輸入旋律以及要演唱的歌詞,就可以產出演唱歌詞、自然甜美的女聲。技術上,她使用的是 Yamaha 的專利音聲合成技術 Vocaloid(目前發展到第四代), Vocaloid 的意思顧名思義,就是歌唱機器人。

外稿

▲ 翻拍自 Vocaloid 編輯器執行畫面,真的只是一個「車欠骨豊」。

很多人以為初音未來不過就是一個虛擬角色,大概像 Kitty 貓、米老鼠之流,不過就賣賣玩具周邊之類,其實這是差很多的。日本矢野經濟研究所今年初的 2015 宅經濟報告中指出,日本國內以初音未來為首的 Vocaloid,經濟規模達 90 億日圓,而且逐年攀升,現在初音未來除了開演唱會,甚至近期還與美國好萊塢明星史嘉蕾‧喬韓森共同代言了日本麗仕( Lux)的洗髮精廣告呢!

「虛擬歌手」這樣的產品其實有 3 個層次:第一層就是虛擬角色,你喜歡一個角色,你會想要擁有它,買他的周邊;第二層是虛擬偶像,偶像有著強烈故事,消費者不但會想要買周邊商品,而且會想要加以模仿、崇拜,例如美國隊長、鋼鐵人、達斯維達、素還真等;第三層就是虛擬歌手了,本質上,其實是生產工具外加一張角色意象圖。這讓許許多多的創作者購買了此軟體產品,變成了 Crypton 公司的夥伴,本來默默無聞難以取得流行音樂公司的資源加持,但就靠著初音未來等虛擬歌手,許多素人作曲家自行製作且發行了數以百計膾炙人口的流行金曲,有創作實力但缺乏傳統流行樂界人脈,一樣能大紅大紫。這大大翻轉了日本流行音樂界的生態,接著再輻射出各式周邊、玩具、玩偶、影片、遊戲的授權生意,當然還有演唱會與廣告代言,演變出一整個生態系。

 

虛擬歌手的技術

說到技術面,跟一般人所認知的不同,虛擬歌手其實是「訊號分析與處理」領域尖端的技術,而 Vocaloid 就是日本産業技術總和研究所(類似台灣的工研院,簡稱產總研)的驕傲,使日本學界在此領域執世界之牛耳,沒有其他國家能望其項背。

最重要的核心技術課題是以下兩點:

  1. 語言發音的音節跟音節之間如何平順的過渡?
  2. 如何調變語音的音高,保持音色不失真?

這兩件事情困擾了八十多年來許許多多的科學家,最終在 YAMAHA 的研究人員手上找到了解答。

關於研究人員篳路藍縷的細節過程,可在日本出版的 《ボーカロイド技術論》( Vocaloid 技術論)一書上閱讀到,以下是筆者摘要的歸納:

首先關於發音過渡的問題,本來電腦音聲合成的主流研究路線,是錄製一個語言所有個別音節發音的「單獨音」(以華語為例,就是ㄚ、ㄙㄚ 、ㄒ一ㄤ……等等),然後用電腦演算,模擬出音節跟音節之間的聲音過渡演變。但這路線歷經數十年的發展,一直無法突破不自然的情形—當我們撥電話到一個公司企業,會有一個自動電話答錄系統,然後會聽到念的字與字之間會有不連續、明顯斷點、不自然的聲音,這就是單獨音的技術。

Vocaloid 團隊的研究方向後來轉向新的「連續音」路線,連續音的理念是:「既然音節跟音節之間的演變難以由電腦模擬出來,那麼就把變化的過程也錄下來吧!」

更深入探討下去,子音縮寫是 C,母音縮寫是 V,以華語為例,一個單獨音是 CV(不過這個 V 可能是複數母音的組合),要實做連續音,人聲取樣要錄到完整的 VCV 或者是 VC + CV。假設我們要要合成出「恭─喜」的語音,方法是要錄有一個單獨音「ㄍㄨㄥ」(CV)跟「n-ㄒ一ˇ」(VCV)帶有 ㄥ 微微母音尾巴的連續音(ㄥ 跟 ㄣ 尾巴其實幾乎一樣),然後讓「ㄍㄨㄥ」的尾巴跟後面「n-ㄒ一ˇ」做混音演算,合為一體,我們就會聽到自然的「恭喜」了。更進一步,「ㄍㄨㄥ」當然也就可以換成「ㄒㄩㄥ」、「ㄒ一ㄥ」、「ㄒ一ㄣ」,甚至是「ㄤ」為母音的發音等,都可以自然平順地接合。

外稿

這個問題解決後,下一個課題就是如何調變音高而不失真,而且效率要夠好。這個技術,說穿了其實就是高品質的 autotune──傳說中錄音室用來修正歌手唱不準的軟體。其實 autotune 也有等級之分,比方說有的 autotune 把你的歌聲修到準了,可是聲音卻變成像機器人講話的聲音(流行歌還蠻常聽到的一種效果),有的卻可以在你 LIVE 現場亂唱時,即時運算修成像是歌唱高手的演出。

這其中的關鍵是任何樂器音色(含人聲),由一個基頻 F0,以及往上的 F1、 F2、 F3 等多重泛音頻率組成,可以想成「任何音色的單一聲音,其實是由很多聲音構成」。合成時最重要的是保持住基頻 F0,在調變後(快速傅立葉轉換,從值域轉到頻域來演算),讓音色不崩壞,這可就是大學問了,例如說一首歌我們把它加速播放時,會聽到歌聲變成花栗鼠似地尖叫,那個就是整個音色失真,被破壞了。

在初音未來發表的 2008 年,當時 YAMAHA 的策略是配音員錄音時,同一個錄音表(窮舉日語所有的音節組合可能,再排除重複的)要分別錄 3 份:高音的版本、中音的版本、低音的版本,就是由於當時 Vocaloid 技術在大範圍音高調變時會大失真,所以就用加倍的取樣資料來解決這個問題。

 

徵音梅林的緣起

外稿

筆者其實一開始也是購置初音未來進行創作,但由於習慣自由軟體,對於購買了商業軟體來創作,創作的可能性會被契約限制住,總是覺得很不自由。剛好開源社群的友人 Paulliu 邀請筆者,於是就加入了這個計畫,一同打造自由的虛擬歌手。命名上,前二字採取宮、商、角(ㄐㄩㄝˊ)、徵(ㄓˇ)、羽的五聲音階意涵,同時也有「徵求到的聲音」的雙關語;後二字的梅林則是指魔法師、梅花、Linux 的意象。

當時市場上,除了 Vocaloid 這個專利引擎以外,只有 Utau 這個免費的虛擬歌手平台,但是它的合成技術落後 Vocaloid 好幾個世代,合成出來的品質很不理想(使用會失真的取樣機調變技術),而且也不是自由軟體(不過我們採其開放的音聲資料庫格式,與其保持相容)。 Paulliu 研究了很多論文,最後驚訝的發現日本有一位學者,森勢將雅博士發表了革命性的演算法──World 演算法,他的人聲合成演算法非常的優越,比當時的 Vocaloid2 引擎更好,把一個音,調變音高到多高多低,音色都不會失真,而且在比較差的硬體上也能即時運算好(這也表示現場演唱會,歌手可以用即時 autotune 了)。更重要的是,森勢博士厭惡專利申請,所以把他的 World 演算法公諸於世不申請專利,而且開放原始碼(第一版是 GPL)。這讓我們有了製作自由虛擬歌手的重要基礎。

 

開發過程

華語虛擬歌手的製作上,由於無成熟的前例可循,所以敝社群由跨領域的人才組成,有數學專精、物理學者、漢語聲韻學專家、台語專業研究人士當然還有音樂專業領域,開發上分兩大部分: LINNE 音聲合成平台、虛擬歌手聲庫的製作與規劃。

LINNE 是敝社群界定出來相當於 Vocaloid 或者 Utau 的平台,是包含引擎、前端編輯器、輔助工具組等完整的 toolchain stack。而虛擬歌手的聲庫,是以數學與聲韻學原理,整理出一套包含所有漢語發音組合的連續音與單獨音的最佳化錄音表(不追求一昧縮小錄音量而犧牲合成品質),然後透過網路海選,幸運地徵求到國內知名爵士樂團巴西之吻女主唱羅竺,在發生音樂的專業錄音室進行錄音工程。

去年敝社群先發表了日語的聲音資料庫,今年則在 COSCUP 年會發表了華語聲庫的威力展示。其實我們有一個創舉──日語聲庫資料量小,可以手動人工一個一個去設定資料庫參數,但是華語的資料量卻是日語的 4 倍之多,難以用人工完成,所以我們社群的夥伴發展了大數據自動分析法,來解決海量資料的分析困難,目前只差前端的編輯器就會是完全體,一個技術自主的新體系。

如果大家有興趣的話,歡迎來到敝團隊的官網以及粉絲頁,如果你是公司企業行號,也歡迎聯絡,這當然有非常大的商機。近期大家看了精靈寶可夢 GO ,不禁在問:我們的寶可夢 GO 在哪裡?其實台灣不是沒有人才,只是你看錯、看不見或者拴住他們脖子不給機會。比如說筆者在別的開源計畫有一位前合作夥伴唐鳳,就是知名的例子,她的技術力無與倫比,溝通與組織力上又兼具高效率與圓滑,這種人非常難找,絕對是最好的 PM 或者大 CEO ,但最終是在蘋果等外商企業當顧問,當然現在她轉公職了,大家會漸漸感受用到她對社會的貢獻。

說回「電子文創」,聰明的人早在精靈寶可夢 GO 前身的 Ingress ,就看到遠景而加以投資了,想改變台灣企業情報力每次都慢好幾拍的窘境,就請打開心眼好好看這世界吧。

最後附上 COSCUP 活動當天的趣味實況,感謝阿妹經典名曲《三天三夜》的詞曲作者阿怪(陳志翰),授權給敝團隊無償使用。

(首圖來源:徵音梅林) 

發表迴響