非監督式快速語者調適演算法研究｜國立中央大學博碩士論文系統

簡易檢索 / 詳目顯示

回結果列表

研究生：	陳克巽 Ke-Zhuan Chen
論文名稱：	非監督式快速語者調適演算法研究
指導教授：	莊堯棠 Yau-Tarng Juang
口試委員:
學位類別：	碩士 Master
系所名稱：	資訊電機學院 - 電機工程學系 Department of Electrical Engineering
畢業學年度：	88
語文別：	中文
論文頁數：	67
中文關鍵詞：	非監督式快速語者調適、貝氏調適法、最大可能性線性迴歸、向量場平滑化
外文關鍵詞：	Speaker Adaptation
相關次數：	點閱：12 下載：0
分享至:	分享至facebook 分享至twitter

查詢本校圖書館目錄查詢臺灣博碩士論文知識加值系統勘誤回報

在調適方法方面，本論文中使用到的主要有貝氏調適法(Bayesian adaptation, MAP)、最大可能性線性迴歸(Maximum Likelihood Linear Regression, MLLR)、向量場平滑化(Vector-Field-Smoothing, VFS)三種，並嘗試結合MLLR與MAP、MLLR與VFS來提升調適能力可能性，並由實驗證明，MLLR+MAP與MLLR+VFS不論在監督(Supervised)或非監督(Unsupervised)調適中，效果都比使用單一方法下來得好。
在快速調適做法上，一般是用監督批次 (Supervised Batch) 式架構或非監督漸增(Unsupervised Incremental)方法來實現。本論文首先使用監督批次式(SB)架構來評估各種調適方法表現；另外在非監督調適上，使用兩種架構，一種是每次在調適時只使用不同2句話來不斷地調整初始模型(UI_1)；另一種則是重覆使用上一次調適過的語料來調適(UI_2)。MLLR使用UI_1調適架構時，正確率會有跳動情況發生，若再增加調適語料，跳動情形依然可能發生；若與MAP、VFS結合，則可以增加MLLR在非監督調適下穩定性，從MLLR+VFS與MLLR+MAP 以每次4句，5次調適結果平均來比較，兩者都比不特定語者高出5個百分點左右，MLLR+VFS又比MLLR+MAP高出了1.34個百分點，同時可以看出MLLR+VFS在一次使用較多調適語料時，正確率比較不會有跳動的情況發生。
在非監督調適當中，若使用UI_2架構，則對MLLR+MAP與MLLR+VFS而言，具有快速穩定調適效果，兩者在第2次的調適後，即可達到 90 %詞正確率，若調適次數再增加，則MLLR+VFS正確率有緩慢上升趨勢，最好可達 94.45 %。所以在非監督式快速語者調適當中，使用UI_2架構，並結合MLLR+VFS是較為可行調適方法。

摘　要6
目　錄11
附圖目錄13
附表目錄15
第一章 序論16
1語者調適簡介16
2回顧語者調適研究方法17
3研究動機19
4研究方向及目標19
5論文大綱20
第二章 語者調適方法21
1貝氏調適法(MAP)21
2最大可能性線性回歸(MLLR)22
2.1 MLLR 理論22
2.2 MLLR單一混合高斯分布轉換矩陣估計23
2.3 多種迴歸類別 之推導26
2.4 不限調適語料 之推導28
2.5 對角化 之推導28
3向量場平滑化(VFS) 30
第三章 系統架構34
1實驗環境34
1.1 實驗設備34
1.2 特徵參數34
1.3 訓練、調適及測試語料34
2初始模型─次音節模型35
3次音節模型訓練─由左至右隱藏式馬可夫模型36
3.1 一般性原理36
3.2 由左至右隱藏式馬可夫模型37
3.3 次音節模型訓練37
3.4 模型辨識39
4調適實驗架構40
4.1 調適實驗初始模型40
4.2 監督批次式調適架構(SB)40
4.3 非監督式增量調適架構1(UI_1)41
4.4 非監督式增量調適架構2(UI_2)42
第四章 調適系統實現及實驗結果43
1不特定語者實驗結果43
2MAP基本調適實驗43
2.1 MAP自我調適實驗43
2.2 MAP調適實驗45
3MLLR調適實驗47
4VFS調適實驗50
5MLLR+MAP調適實驗53
6MLLR+VFS調適實驗56
第五章 結論及未來發展方向60
1結論60
2未來發展方向62
參考文獻64
附　錄67

                                

【1】 Seyed Mohammad Ahadi-Sarkani, “Bayesian and Predictive Techniques for Speaker Adaptation”. Ph.D. Thesis, Cambridge University, U.K., 1996.
【2】 A. Sankar and C-H. Lee, “A Maximum-Likelihood Approach to Stochastic Matching for Robust Speech Recognition”. IEEE Trans. on Speech and Audio Proc., Vol. 4, pp. 190—202, May 1996.
【3】 Heidi Christensen, “Speaker Adaptation of Hidden Markov Models using Maximum Likelihood Linear Regression”. MSc.E.E. Thesis. Aalborg University, Denmark, June 1996.
【4】 Lawrence Rabiner and B-H. Juang, “Fundamentals of Speech Recognition”. Prentice Hall, 1993.
【5】 X. Huang and K.F. Lee, “On Speaker-Independent, Speaker-Dependent, and Speaker-Adaptive Speech Recognition”. IEEE Trans. on Speech and Audio Proc., Vol. 12, pp. 150—157, April 1993.
【6】 C-H. Lee, C-H. Lin, and B-H. Juang, “A Study on Speaker Adaptation of the Parameters of Continuous Density Hidden Markov Models”. IEEE Trans. on Sig. Proc., Vol. 39, No. 4, pp. 806—814, April 1991.
【7】 B.F. Necioglu, M. Ostendorf, and J.R. Rohlicek, “A Bayesian Approach to Speaker Adaptation for the Stochastic Segment Model”. ICASSP-92, Vol. 1, pp. 437—440, 1992.
【8】 J-I. Takahashi and S. Sagayama, “Fast Telephone Channel Adaptation Based on Vector Field Smoothing Technique”. Second IEEE Workshop on Interactive Voice Technology for Telecommunications Applications, pp. 97—100, 1994.
【9】 M. Tonomura, T. Kosaka and S. Matsunaga, “Speaker Adaptation Based on Transfer Vector Field Smoothing using Maximum a Posteriori Probability Estimation”. ICASSP-95, Vol. 1, pp. 688—691, 1995.
【10】 J. Takahashi and S. Sagayama, “Vector-Field-Smoothed Bayesian Learning for Incremental Speaker Adaptation”. ICASSP-95, Vol. 1, pp. 696—699, 1995.
【11】 J. Takahashi and S. Sagayama, “Minimum Classification Error Training for a Small Amount of Data Enhanced by Vector-Field-Smoothed Bayesian Learning”. ICASSP-96, Vol.: 2, pp. 597—600, 1996.
【12】 S. Cox, “Speaker Adaptation in Speech Recognition using Linear Regression Techniques”. Electronics Letters Vol. 28, pp. 2093—2094, Oct. 1992.
【13】 S.J. Cox, “A Speaker Adaptation Technique using Linear Regression”. ICASSP-95, Vol. 1, pp. 700—703, 1995.
【14】 P.C. Woodland, D. Pye and M.J.F. Gales, “Iterative Unsupervised Adaptation using Maximum Likelihood Linear Regression”. Fourth International Conference on Spoken Language, Vol. 2, pp. 1133—1136.
【15】 C.J. Leggetter and P.C. Woodland, “Speaker Adaptation of HMM’s using Linear Regression”. Technical Report GUED/F-INFENG/ TR.181, Cambridge University, June 1994.
【16】 C.J. Leggetter and P.C. Woodland, “Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models”. Computer Speech and Language, Vol. 9, pp. 171—185, 1995.
【17】 C.J. Leggetter and P.C. Woodland, “Flexible Speaker Adaptation using Maximum Likelihood Linear Regression”. Proc. ARPA Spoken Language Technology Workshop, pp. 104—109, Feb. 1995.
【18】 C.J. Leggetter and P.C. Woodland, “Speaker Adaptation of continuous density HMMs using Multivariate Linear Regression”. ICSLP-94, Vol. 2, pp. 451—454, Yokohama, 1994.
【19】 M.J.F. Gales, “Maximum Likelihood Linear Transformation for HMM-Based Speech Recognition”. Technical Report GUED/F-INFENG/TR.291, Cambridge University, May 1997.
【20】 M.J.F. Gales, “The Generation and use of Regression Class Trees for MLLR Adaptation”. Technical Report GUED/F-INFENG/TR.263, Cambridge University, August 1996.
【21】 L.R. Rabiner, “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”. Proc. IEEE, Vol. 77, No.2, pp. 257—286, Feb. 1989.
【22】陸康瑋，”國語語音辨認中語者調適技術之研究”，國立台灣大學電機工程研究所碩士論文民國八十四年。
【23】蔡忠安，”語者調適和正規化技術在語音辨認之初步研究”，國立交通大學電信工程研究所碩士論文，民國八十七年。
【24】曾國裕，”國語語音辨認中使用少量語料之語者調適技術研究”，國立台灣大學電機工程研究所碩士論文，民國八十七年。

簡易檢索 / 詳目顯示

相關論文