摘要:本文簡要介紹了語音識別技術理論基礎及分類方式,所采用的關鍵技術以及所面臨的困難與挑戰,最后討論了語音識別技術的發展前景和應用。
關鍵詞:語音識別;特征提取;模式匹配;模型訓練
Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.
Keywords:Speech identification;Character Pick-up;Mode matching;Model training
一、語音識別技術的理論基礎
語音識別技術:是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高級技術。語音識別以語音為研究對象,它是語音信號處理的一個重要研 究方向,是模式識別的一個分支,涉及到生理學、心理學、語言學、計算機科學以及信號處理等諸多領域,甚至還涉及到人的體態語言(如人在說 話時的表情、手勢等行為動作可幫助對方理解),其最終目標是實現人與機器進行自然語言通信。
不同的語音識別系統,雖然具體實現細節有所不同,但所采用的基本技術相似,一個典型語音識別系統主要包括特征提取技術、模式匹配準則及模型訓練技術 三個方面。此外,還涉及到語音識別單元的選取。
(一) 語音識別單元的選取
選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節和音素三種,具體選擇哪一種,由具體的研究任務決定。
單詞(句)單元廣泛應用于中小詞匯語音識別系統,但不適合大詞匯系統,原因在于模型庫太龐大,訓練模型任務繁重,模型匹配算法復雜,難以滿足實時性 要求。
音節單元多見于漢語語音識別,主要因為漢語是單音節結構的語言,而英語是多音節,并且漢語雖然有大約1300個音節,但若不考慮聲 調,約有408個無調音節,數量相對較少。因此,對于中、大詞匯量漢語語音識別系統來說,以音節為識別單元基本是可行的。
音素單元以前多見于英語語音識別的研究中,但目前中、大詞匯量漢語語音識別系統也在越來越多地采用。原因在于漢語音節僅由聲母(包括零聲母有22 個)和韻母(共有28個)構成,且聲韻母聲學特性相差很大。實際應用中常把聲母依后續韻母的不同而構成細化聲母,這樣雖然增加了模型數目,但提高了易混淆 音節的區分能力。由于協同發音的影響,音素單元不穩定,所以如何獲得穩定的音素單元,還有待研究。
(二) 特征參數提取技術
語音信號中含有豐富的信息,但如何從中提取出對語音識別有用的信息呢?特征提取就是完成這項工作,它對語音信號進行分析處理,去除對語音識別無關緊 要的冗余信息,獲得影響語音識別的重要信息。對于非特定人語音識別來講,希望特征參數盡可能多的反映語義信息,盡量減少說話人的個人信息(對特定人語音識 別來講,則相反)。從信息論角度講,這是信息壓縮的過程。
線性預測(LP)分析技術是目前應用廣泛的特征參數提取技術,許多成功的應用系統都采用基于LP技術提取的倒譜參數。但線性預測模型是純數學模型, 沒有考慮人類聽覺系統對語音的處理特點。
Mel參數和基于感知線性預測(PLP)分析提取的感知線性預測倒譜,在一定程度上模擬了人耳對語音的處理特點,應用了人耳聽覺感知方面的一些研究 成果。實驗證明,采用這種技術,語音識別系統的性能有一定提高。
也有研究者嘗試把小波分析技術應用于特征提取,但目前性能難以與上述技術相比,有待進一步研究。
(三)模式匹配及模型訓練技術
模型訓練是指按照一定的準則,從大量已知模式中獲取表征該模式本質特征的模型參數,而模式匹配則是根據一定準則,使未知模式與模型庫中的某一個模型 獲得最佳匹配。
語音識別所應用的模式匹配和模型訓練技術主要有動態時間歸正技術(DTW)、隱馬爾可夫模型(HMM)和人工神經元網絡(ANN)。
DTW是較早的一種模式匹配和模型訓練技術,它應用動態規劃方法成功解決了語音信號特征參數序列比較時時長不等的難題,在孤立詞語音識別中獲得了良 好性能。但因其不適合連續語音大詞匯量語音識別系統,目前已被HMM模型和ANN替代。
HMM模型是語音信號時變特征的有參表示法。它由相互關聯的兩個隨機過程共同描述信號的統計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態的 Markor鏈,另一個是與Markor鏈的每一狀態相關聯的觀察矢量的隨機過程(可觀測的)。隱蔽Markor鏈的特征要靠可觀測到的信號特征揭示。這 樣,語音等時變信號某一段的特征就由對應狀態觀察符號的隨機過程描述,而信號隨時間的變化由隱蔽Markor鏈的轉移概率描述。模型參數包括HMM拓撲結 構、狀態轉移概率及描述觀察符號統計特性的一組隨機函數。按照隨機函數的特點,HMM模型可分為離散隱馬爾可夫模型(采用離散概率密度函數,簡稱 DHMM)和連續隱馬爾可夫模型(采用連續概率密度函數,簡稱CHMM)以及半連續隱馬爾可夫模型(SCHMM,集DHMM和CHMM特點)。一般來講, 在訓練數據足夠的,CHMM優于DHMM和SCHMM。HMM模型的訓練和識別都已研究出有效的算法,并不斷被完善,以增強HMM模型的魯棒性。
人工神經元網絡在語音識別中的應用是現在研究的又一熱點。 ANN本質上是一個自適應非線性動力學系統,模擬了人類神經元活動的原理,具有自學、聯想、對比、推理和概括能力。這些能力是HMM模型不具備的,但 ANN又不個有HMM模型的動態時間歸正性能。因此,現在已有人研究如何把二者的優點有機結合起來,從而提高整個模型的魯棒性。
二、語音識別的困難與對策
目前,語音識別方面的困難主要表現在:
(一)語音識別系統的適應性差,主要體現在對環境依賴性強,即在某種環境下采集到的語音訓練系統只能在這種環境下應用,否則系統性能將急劇下降;另 外一個問題是對用戶的錯誤輸入不能正確響應,使用不方便。
(二)高噪聲環境下語音識別進展困難,因為此時人的發音變化很大,像聲音變高,語速變慢,音調及共振峰變化等等,這就是所謂Lombard效應,必 須尋找新的信號分析處理方法。
(三)語言學、生理學、心理學方面的研究成果已有不少,但 如何把這些知識量化、建模并用于語音識別,還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續語音識別中是非常重要的。
(四)我們對人類的聽覺理解、知識積累和學習機制以及大腦神經系統的控制機理等分面的認識還很不清楚;其次,把這方面的現有成果用于語音識別,還有 一個艱難的過程。
(五)語音識別系統從實驗室演示系統到商品的轉化過程中還有許多具體問題需要解決,識別速度、拒識問題以及關鍵詞(句)檢測技術等等技術細節要解 決。
三、語音識別技術的前景和應用
語音識別技術發展到今天,特別是中小詞匯量非特定人語音 識別系統識別精度已經大于98%,對特定人語音識別系統的識別精度就更高。這些技術已經能夠滿足通常應用的要求。由于大規模集成電路技術的發展,這些復雜 的語音識別系統也已經完全可以制成專用芯片,大量生產。在西方經濟發 達國家,大量的語音識別產品已經進入市場和服務領域。一些用戶交機、電話機、手機已經包含了語音識別撥號功能,還有語音記事本、語音智能玩具等產品也包括 語音識別與語音合成功能。人們可以通過電話網絡用語音識別口語對話系統查詢有關的機票、旅游、銀行信息,并且取得很好的結果。
語音識別是一門交叉學科,語音識別正逐步成為信息技術中人機接口的關鍵技術,語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤,通過語音命令進行 操作。語音技術的應用已經成為一個具有競爭性的新興高技術產業。
參考文 獻:
[1]科大訊飛語音識別技術專欄. 語音識別產業的新發展.企 業專欄.通訊世界,2007.2:(總l12期)
[2]任天平,門茂深.語音識別技術應用的進展.科技廣場.河南科技,2005.2:19-20
[3]俞鐵城.科大訊飛語音識別技術專欄.語音識別的發展現狀.企業專欄.通訊世界,2006.2 (總122期)
[4]陳尚勤等.近代語音識別.西安:電子科 技大學出版社,1991
[5]王炳錫等.實用語音識別基礎.Practical Fundamentals of Speech Recognition.北京:國防工業出版社,2005
[6](美)L.羅賓納.語音識別基本原理.北京:清華大學出版社,1999
本站論文資源均為來自網絡轉載,免費提供給廣大作者參考,不進行任何贏利,如有版權問題,請聯系管理員刪除! 快速論文發表網(www.vortexsignal.com)本中心和國內數百家期刊雜志社有良好的合作關系,可以幫客戶代發論文投稿.
投稿郵箱:ksfbw@126.com
客服Q Q:
82702382
聯系電話:15295038833
本站論文資源均為來自網絡轉載,免費提供給廣大作者參考,不進行任何贏利,如有版權問題,請聯系管理員刪除!