跳到主要內容

簡易檢索 / 詳目顯示

研究生: 陳俊傑
Chun-Chieh Chen
論文名稱: 結構化語者模型之研究
The study of structural speaker model
指導教授: 莊堯棠
Yau-Tarng Juang
口試委員:
學位類別: 碩士
Master
系所名稱: 資訊電機學院 - 電機工程學系
Department of Electrical Engineering
畢業學年度: 92
語文別: 中文
論文頁數: 83
中文關鍵詞: 語者調適語者確認語者識別語者辨識
外文關鍵詞: speaker recognition, speaker verification, speaker identification, speaker adaptation
相關次數: 點閱:14下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 在本論文中,我們提出以樹狀結構高斯密度為基礎的文字不特定語者調適系統。首先將一個訓練良好的通用背景模型以樹狀結構建造出在聲學空間中具有不同解析度的結構化背景模型,因此利用結構化的語者調適法調適出來的特定語者模型亦具有多重解析度的聲紋特性;利用樹狀結構於語者調適技術及語者模型在語者辨識正確率上有不錯的效果。
    我們也將比較樹狀結構在不同語者調適方法上的效果。在少量調適語料的情況下,模型中沒有分到調適語料的高斯分佈會使得辨識的效能降低。因此對於沒有調適的高斯分佈,本論文提出一個加入結構化的向量場平滑化演算法,改善傳統向量場平滑化方法的缺點,進一步地提升系統的辨識效能。
    在語者確認方面,樹狀結構中每一層解析度都有一定的效果,本論文也嘗試結合多層解析度計分的方法,以萃取在不同空間架構下的優缺點,以降低語者確認系統的等錯誤率。


    摘要…………………………………………………………………… Ⅰ 目錄…………………………………………………………………… Ⅱ 附圖目錄………………………………………………………………. Ⅴ 附表目錄…………………………………………….………………… Ⅶ 第一章 緒論……………………………………………………………1 1.1 研究動機…………………………………………………… 1 1.2 語者辨識概述……………………………………………… 2 1.3 語者調適技術概述………………………………………… 4 1.4 論文方向與研究目的……………………………………… 5 1.5 章節概要…………………………………………………… 6 第二章 語者辨識之基本技術…………………………………………7 2.1 特徵參數擷取……………………………………………… 7 2.2 語者模型建立……………………………………………..10 2.2.1 高斯混合模型………………………………………11 2.2.2 語者模型訓練流程…………………………………12 2.2.3 向量量化……………………………………………13 2.2.4 EM演算法………………………………………….16 2.3 語者辨識………………………………………………….17 2.3.1 語者識別……………………………………………17 2.3.2 語者確認……………………………………………18 2.3.3 背景語者模型………………………………………20 2.3.4 門檻值的選取………………………………………21 2.4 語者調適技術…………………………………………….22 2.4.1 貝氏調適法…………………………………………23 2.4.2 向量場平滑化………………………………………27 第三章 結構化語者模型之架構……………………………………..31 3.1 結構化背景模型的訓練……………………………………32 3.1.1 K-L離散度………………………………………….33 3.1.2 最大最小距離演算法………………………………34 3.1.3 最大相似度…………………………………………36 3.1.4 結構化背景模型……………………………………36 3.2 多層解析度之調適法…………………………………….39 3.2.1 結構化貝氏調適法…………………………………39 3.2.2 結構化之向量場平滑化……………………………41 3.3 多層解析度計分之結合…………………………………….44 第四章 語者調適實驗……………………………………………….46 4.1 語音資料庫…………………………………………………46 4.2 結構化背景模型實驗………………………………………47 4.2.1 樹狀結構中不同解析度的比較……………………48 4.3 語者調適實驗………………………………………………50 4.3.1 傳統高斯混合模型與調適高斯混合模型的比較…50 4.3.2 調適語料長度對貝氏調適法的影響………………52 4.3.3 加入結構化向量場平滑化的影響…………………53 4.4 結構化高斯混合模型實驗…………………………………56 4.4.1 結構化背景模型架構的比較………………………56 4.4.2 使用結構化高斯混合模型的影響…………………58 4.5 多重解析度計分實驗………………………………………61 4.5.1 不同空間解析度分數的效應………………………61 4.5.2 結合空間解析度計分的影響………………………62 第五章 結論與未來展望…………………………………………….65 5.1 結論…………………………………………………………65 5.1 未來展望……………………………………………………66 參考文獻……………………………………………………………….68

    [1] L. R. Rabiner and B. H. Juang, Fundamentals of Speech Recognition, Prentice Hall, New Jersey, 1993.
    [2] X. Huang, A. Acero and H. W. Hon, Spoken Language Processing, Prentice Hall, 2001.
    [3] J. T. Tou and R. C. Gonzalez, Pattern Recognition Principles, Addison Wesley, 1974.
    [4] L. S. Lee and Y. Lee, “Voice Access of Global Information for Broad-Band Wireless: Technologies of Today and Challenges of Tomorrow,” Proceedings of the IEEE, vol. 89, no. 1, pp. 41-57, January 2001.
    [5] G. R. Doddington, “Speaker recognition-identifying people by their voices,” Proceedings of the IEEE, vol. 73, no. 11, pp. 1651-1664, November 1985.
    [6] J. L. Gauvain and C. H. Lee, “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains,” IEEE Trans. Speech and Audio Processing, vol. 2, no. 2, pp. 291-298, April 1994.
    [7] R. Kuhn, J. C. Junqua, P. Nguyen and N. Niedzielski, “Rapid Speaker Adaptation in Eigenvoice Space,” IEEE Trans. Speech and Audio Processing, vol. 8, no. 6, pp. 695-707, November 2000.
    [8] M. Tonomura, T. Kosaka and S. Matsunaga, “Speaker Adaptation Based on Transfer Vector Filed Smoothing Using Maximum a Posteriori Probability Estimation,” ICASSP-95, vol.1, pp. 688-691, 1995.
    [9] D. A. Reynolds and R. C. Rose, “Robust Text-Independent Speaker Identification Using Gaussian Mixture Models,” IEEE Trans. Speech and Audio Processing, vol. 3, no. 1, pp. 72-83, January 1995.
    [10] R. Vergin, D. O’Shaughnessy and A. Farhat, “Generalized Mel Frequency Coefficients for Large-Vocabulary Speaker-Independent Continuous-Speech Recognition,” IEEE Trans. Speech and Audio Processing, vol. 7, no. 5, pp. 525-532, September 1999.
    [11] T. K. Moon, “The Expectation-Maximization Algorithm,” IEEE Signal Processing Magazine, vol. 13, no. 6, pp. 47-60, November 1996.
    [12] C. S. Liu, H. C. Wang and C. H. Lee, “Speaker Verification Using Normalized Log-Likelihood Score,” IEEE Trans. Speech and Audio Processing, vol. 4, no. 1, pp. 56-60, January 1996.
    [13] K. Shinoda and C. H. Lee, “A Structural Bayes Approach to Speaker Adaptation,” IEEE Trans. Speech and Audio Processing, vol. 9, no. 3, pp. 276-287, March 2001.
    [14] T. Watanabe, K. Shinoda, K. Takagi and K. –I. Iso, “High speed speech recognition using tree-structured probability density function,” in Proc. Int. Conf. Acoustics, Speech, Signal Processing, 1995, pp. 556-559.
    [15] B. Xiang and T. Berger, “Efficient Text-Identification Speaker Verification with Structural Gaussian Mixture Models and Neural Network,” IEEE Trans. Speech and Audio Processing, vol. 11, no. 5, pp. 447-456, September 2003.
    [16] T. J. Hanzen and A. K. Halberstadt, “Using aggregation to improve the performance of mixture Gaussian acoustic models,” in Proc. Int. Conf. Acoustics, Speech, Signal Processing, 1998, pp. 653-656.
    [17] B. L. Pellom and J. H. L. Hansen, “An Efficient Scoring Algorithm for Gaussian Mixture Model Based Speaker Identification,” IEEE Signal Processing Letters, vol. 5, no. 11, pp. 281-284, November 1998.
    [18] 吳金池,”語者辨識系統之研究”,國立中央大學電機工程研究所碩士論文,民國九十一年。
    [19] 賴彥輔,”語者辨識之研究”,國立中央大學電機工程研究所碩士論文,民國九十二年。
    [20] 陳冠廷,”以樹狀結構有效使用調適語料之語者調適技術”,國立台灣大學電信工程研究所碩士論文,民國八十八年。

    QR CODE
    :::