姓名: 古鴻炎 (Hung-Yan Gu)

職稱:  教授

擔任課程: (1)語音信號處理(2)作業系統,  (3)數位聲訊與電腦音樂,  (4)資料壓縮,  


課程內容(course contents)


一, 語音信號處理(speech signal processing)

0. 聲音的特性(properties of sound), 種類(classification of sound),

人自已之處理方式:

1. introduction to articulatory and acoustics phonetics:

  • 發聲及音響音素學介紹: (1) 子音, 母音的特性及發音方式, (2) 音素的分類, (3) 音素的發聲模型及頻譜特性.

2. hearing and perception:

  • 聽覺器官與心理感知: (1)外耳, 中耳, 與內耳的功能, (2) 大腦聽覺感知的現象 (loudness threshold, pitch perception, masking).

機器(電腦)上的處理技術:

3. fundamentals of digital signal processing and speech coding:

  • 聲訊之錄製與播放, 取樣頻率.
  • 語音編碼: e.g. log-PCM, ADPCM, VQ.

4. time domain processing and parameters:

  • 時域處理: 端點偵測, windowing, 基週波峰偵測.
  • 時域參數: 短時能量, 零交越率, 自相關係數.

5. LPC analysis and short time Fourier analysis:

  • 線性預測分析, 短時傅利葉分析, 頻譜求取

6. speech recognition:

  • 語音辨識: (1)距離函數, (2)dynamic time warping, 動態時間校正, (3)hidden Markov model, 隱藏式馬可夫模型.

7. speech synthesis:

  • 語音合成: (1) PSOLA 合成器, (2) LPC 合成器, (3) HNM信號合成

  語音處理 之未來應用



語音處理 之研究成果 參考:

 
(a)語音合成 (speech synthesis),
http://140.118.125.28/hmmsyn


(b)語音辨識 (speech recognition), http://140.118.125.28/vdo/SpchRcg.avi


(c)語音轉換 (voice conversion),
http://140.118.125.28/VoiceConv/


(d)聲源方位偵測 (機器人 聽音辨位), http://140.118.125.28/vdo/SrcLoc.mpg




二, 資料壓縮(data compression)

1. ad hoc compression methods.

2. 資訊量測(information measuring)與 entropy.

3. static and dynamic Huffman coding.

4. arithmetic coding.

5. Markov model, zero-frequency problem, escape probabilities estimation.

6. adaptive dictionary coding: LZ77, GZIP; LZ78, LZFG.

7. inreversible compression methods for images: GIF, JPEG, MPEG.