| 研究生: |
陳克巽 Ke-Zhuan Chen |
|---|---|
| 論文名稱: |
非監督式快速語者調適演算法研究 |
| 指導教授: |
莊堯棠
Yau-Tarng Juang |
| 口試委員: | |
| 學位類別: |
碩士 Master |
| 系所名稱: |
資訊電機學院 - 電機工程學系 Department of Electrical Engineering |
| 畢業學年度: | 88 |
| 語文別: | 中文 |
| 論文頁數: | 67 |
| 中文關鍵詞: | 非監督式快速語者調適 、貝氏調適法 、最大可能性線性迴歸 、向量場平滑化 |
| 外文關鍵詞: | Speaker Adaptation |
| 相關次數: | 點閱:12 下載:0 |
| 分享至: |
| 查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
在調適方法方面,本論文中使用到的主要有貝氏調適法(Bayesian adaptation, MAP)、最大可能性線性迴歸(Maximum Likelihood Linear Regression, MLLR)、向量場平滑化(Vector-Field-Smoothing, VFS)三種,並嘗試結合MLLR與MAP、MLLR與VFS來提升調適能力可能性,並由實驗證明,MLLR+MAP與MLLR+VFS不論在監督(Supervised)或非監督(Unsupervised)調適中,效果都比使用單一方法下來得好。
在快速調適做法上,一般是用監督批次 (Supervised Batch) 式架構或非監督漸增(Unsupervised Incremental)方法來實現。本論文首先使用監督批次式(SB)架構來評估各種調適方法表現;另外在非監督調適上,使用兩種架構,一種是每次在調適時只使用不同2句話來不斷地調整初始模型(UI_1);另一種則是重覆使用上一次調適過的語料來調適(UI_2)。MLLR使用UI_1調適架構時,正確率會有跳動情況發生,若再增加調適語料,跳動情形依然可能發生;若與MAP、VFS結合,則可以增加MLLR在非監督調適下穩定性,從MLLR+VFS與MLLR+MAP 以每次4句,5次調適結果平均來比較,兩者都比不特定語者高出5個百分點左右,MLLR+VFS又比MLLR+MAP高出了1.34個百分點,同時可以看出MLLR+VFS在一次使用較多調適語料時,正確率比較不會有跳動的情況發生。
在非監督調適當中,若使用UI_2架構,則對MLLR+MAP與MLLR+VFS而言,具有快速穩定調適效果,兩者在第2次的調適後,即可達到 90 %詞正確率,若調適次數再增加,則MLLR+VFS正確率有緩慢上升趨勢,最好可達 94.45 %。所以在非監督式快速語者調適當中,使用UI_2架構,並結合MLLR+VFS是較為可行調適方法。
【1】 Seyed Mohammad Ahadi-Sarkani, “Bayesian and Predictive Techniques for Speaker Adaptation”. Ph.D. Thesis, Cambridge University, U.K., 1996.
【2】 A. Sankar and C-H. Lee, “A Maximum-Likelihood Approach to Stochastic Matching for Robust Speech Recognition”. IEEE Trans. on Speech and Audio Proc., Vol. 4, pp. 190—202, May 1996.
【3】 Heidi Christensen, “Speaker Adaptation of Hidden Markov Models using Maximum Likelihood Linear Regression”. MSc.E.E. Thesis. Aalborg University, Denmark, June 1996.
【4】 Lawrence Rabiner and B-H. Juang, “Fundamentals of Speech Recognition”. Prentice Hall, 1993.
【5】 X. Huang and K.F. Lee, “On Speaker-Independent, Speaker-Dependent, and Speaker-Adaptive Speech Recognition”. IEEE Trans. on Speech and Audio Proc., Vol. 12, pp. 150—157, April 1993.
【6】 C-H. Lee, C-H. Lin, and B-H. Juang, “A Study on Speaker Adaptation of the Parameters of Continuous Density Hidden Markov Models”. IEEE Trans. on Sig. Proc., Vol. 39, No. 4, pp. 806—814, April 1991.
【7】 B.F. Necioglu, M. Ostendorf, and J.R. Rohlicek, “A Bayesian Approach to Speaker Adaptation for the Stochastic Segment Model”. ICASSP-92, Vol. 1, pp. 437—440, 1992.
【8】 J-I. Takahashi and S. Sagayama, “Fast Telephone Channel Adaptation Based on Vector Field Smoothing Technique”. Second IEEE Workshop on Interactive Voice Technology for Telecommunications Applications, pp. 97—100, 1994.
【9】 M. Tonomura, T. Kosaka and S. Matsunaga, “Speaker Adaptation Based on Transfer Vector Field Smoothing using Maximum a Posteriori Probability Estimation”. ICASSP-95, Vol. 1, pp. 688—691, 1995.
【10】 J. Takahashi and S. Sagayama, “Vector-Field-Smoothed Bayesian Learning for Incremental Speaker Adaptation”. ICASSP-95, Vol. 1, pp. 696—699, 1995.
【11】 J. Takahashi and S. Sagayama, “Minimum Classification Error Training for a Small Amount of Data Enhanced by Vector-Field-Smoothed Bayesian Learning”. ICASSP-96, Vol.: 2, pp. 597—600, 1996.
【12】 S. Cox, “Speaker Adaptation in Speech Recognition using Linear Regression Techniques”. Electronics Letters Vol. 28, pp. 2093—2094, Oct. 1992.
【13】 S.J. Cox, “A Speaker Adaptation Technique using Linear Regression”. ICASSP-95, Vol. 1, pp. 700—703, 1995.
【14】 P.C. Woodland, D. Pye and M.J.F. Gales, “Iterative Unsupervised Adaptation using Maximum Likelihood Linear Regression”. Fourth International Conference on Spoken Language, Vol. 2, pp. 1133—1136.
【15】 C.J. Leggetter and P.C. Woodland, “Speaker Adaptation of HMM’s using Linear Regression”. Technical Report GUED/F-INFENG/ TR.181, Cambridge University, June 1994.
【16】 C.J. Leggetter and P.C. Woodland, “Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models”. Computer Speech and Language, Vol. 9, pp. 171—185, 1995.
【17】 C.J. Leggetter and P.C. Woodland, “Flexible Speaker Adaptation using Maximum Likelihood Linear Regression”. Proc. ARPA Spoken Language Technology Workshop, pp. 104—109, Feb. 1995.
【18】 C.J. Leggetter and P.C. Woodland, “Speaker Adaptation of continuous density HMMs using Multivariate Linear Regression”. ICSLP-94, Vol. 2, pp. 451—454, Yokohama, 1994.
【19】 M.J.F. Gales, “Maximum Likelihood Linear Transformation for HMM-Based Speech Recognition”. Technical Report GUED/F-INFENG/TR.291, Cambridge University, May 1997.
【20】 M.J.F. Gales, “The Generation and use of Regression Class Trees for MLLR Adaptation”. Technical Report GUED/F-INFENG/TR.263, Cambridge University, August 1996.
【21】 L.R. Rabiner, “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”. Proc. IEEE, Vol. 77, No.2, pp. 257—286, Feb. 1989.
【22】 陸康瑋,”國語語音辨認中語者調適技術之研究”,國立台灣大學電機工程研究所碩士論文民國八十四年。
【23】 蔡忠安,”語者調適和正規化技術在語音辨認之初步研究”,國立交通大學電信工程研究所碩士論文,民國八十七年。
【24】 曾國裕,”國語語音辨認中使用少量語料之語者調適技術研究”, 國立台灣大學電機工程研究所碩士論文,民國八十七年。