蔡松峰

 

學歷

輔仁大學數學系
台灣科技大學資工所

 

碩士論文

GMM為基礎之語音轉換法的改進
Improving of a GMM Based Voice Conversion Method

 

論文摘要 Abstrct

本論文研究改進了GMM為基礎的語音轉換方法,在不需知道說話內容的條件下,將輸入的來源語者的語音轉換成為目標語者的語音。我們提出了三個方法來改進GMM對映機制所導入的頻譜包絡過於平滑之問題:在訓練GMM時,對於各個混合的mean向量的計算,改成尋找一個真實存在的頻譜係數DCC向量;在轉換階段,各個音框都只使用單一高斯混合進行DCC係數的對映,但為了避免相鄰音框的頻譜發生不連續的情況,我們採取以動態規劃來挑選出ㄧ序列具有最佳連續性的高斯混合;更進一步,我們將DCC係數依 音節韻母作分類,再分別對各韻母分類的語料進行GMM訓練,相對地在轉換階段,我們也提出了一個自動挑選韻母GMM的動態規劃演算法。此外,我們也提出了一個基於DCC的頻譜包絡估計架構,對於頻譜峰點之挑選和頻率軸尺度之轉換,提出了改進作法。所製 作的語音轉換系統經由聽測評估得到的評分顯示,我們提出的改進GMM 對映機制的方法,的確可明顯地提高轉換出語音的品質及音色辨識度。

In this thesis, a GMM based voice conversion method is improved. The voice of a source speaker is converted to a target-speaker timbre liking voice while the content of the voice need not be known in advance. We have proposed three ways to improve the over smoothed spectral envelope resulted from a GMM based spectral parameter mapping. In GMM training, the mean vector of each mixture is replaced by a real DCC (discrete cepstrum coefficients) vector that is closest to the mean. In the conversion stage, each frame’s DCC vector is mapped by using just a single gaussian mixture. In order to prevent spectrum discontinuity from occuring in some frames, we propose a dynamic programming based method to select a sequence of gaussian mixtures that possess the best continuity. Furthermore, we classified the DCC vectors of the training speech according to their syllable finals, and training a GMM for each syllable-finals class. Accordingly, in the conversion stage, we have proposed a dynamic programming based algorithm to automatically select the right syllable-final GMM for each voiced frame. In addition, we have also developed a discrete cepstrum based spectrum envelope estimation scheme. In this scheme, improved methods are proposed to select spectral peaks and to scale frequency axis. According to the results of perception tests, the constructed voice conversion system using the proposed methods can significantly increase the quality of the converted voice and the degree of timbre identification.

 

語音變換 Voice Transformation 範例

應用所提出的頻譜包絡估計之架構,製做出一個語音變換系統,經由頻譜包絡估計、頻譜包絡伸縮、基頻移動、和信號重新合成等處理步驟,可把輸入語音信號的音色轉換成不同性別和年齡的其它音色。

 

FAS:Frequency Axis Scaling

PS:Pitch Shifting

男性來源發音:音檔

 

將男性來源發音的年齡減少,呈現出比較年輕的音色:音檔

FAS:1.1,PS:1.5

將男性來源發音的年齡增加,呈現出比較年長的音色:音檔

FAS:0.9,PS:0.75

將男性來源發音轉變成為女性,呈現出女性的音色:音檔

FAS:1.2,PS:2.0

將男性來源發音轉變成為幼童,呈現出幼童的音色:音檔

FAS:1.3,PS:2.3

 

語音轉換 Voice Conversion 範例

使用GMM為基礎的語音轉換方法,在不需知道說話內容的條件下,將輸入的來源語者的語音轉換成為目標語者的語音。

我們提出了三個方法來改進GMM對映機制所導入的頻譜包絡過於平滑之問題:在訓練GMM 時,對於各個混合的mean的計算,改成尋找一個真實存在的DCC向量;在轉換階段,各個音框都只使用單一高斯混合進行對映,但為了避免相鄰音框的頻譜發生不連續的情況,我們採取以動態規劃來挑選出一序列具有最佳連續性的高斯混合;更進一步,我們將DCC依音節韻母作分類,再分別對各韻母分類的語料進行GMM訓練,相對地在轉換階段,我們也提出了一個自動挑選韻母GMM的動態規劃演算法。

 

GM:基本的GMM對映方法

SG:訓練階段改進 + 轉換階段改進

VC:韻母分群 + SG

男性 → 男性 之語音轉換

 

男性來源語者發音:音檔

男性目標語者發音:音檔

 

使用GM方法,將男性來源語者發音作語音轉換:音檔

使用SG方法,將男性來源語者發音作語音轉換:音檔

使用VC方法,將男性來源語者發音作語音轉換:音檔

男性 → 女性 之語音轉換

 

男性來源語者發音:音檔

女性目標語者發音:音檔

 

使用GM方法,將男性來源語者發音作語音轉換:音檔

使用SG方法,將男性來源語者發音作語音轉換:音檔

使用VC方法,將男性來源語者發音作語音轉換:音檔