時間:2023-03-17 18:05:50
序論:在您撰寫語音識別技術(shù)時,參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。
摘要:本文簡要介紹了語音識別技術(shù)理論基礎(chǔ)及分類方式,所采用的關(guān)鍵技術(shù)以及所面臨的困難與挑戰(zhàn),最后討論了語音識別技術(shù)的發(fā)展前景和應(yīng)用。
關(guān)鍵詞:語音識別;特征提?。荒J狡ヅ?;模型訓(xùn)練
Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.
Keywords:Speech identification;Character Pick-up;Mode matching;Model training
一、語音識別技術(shù)的理論基礎(chǔ)
語音識別技術(shù):是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高級技術(shù)。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支,涉及到生理學(xué)、心理學(xué)、語言學(xué)、計算機科學(xué)以及信號處理等諸多領(lǐng)域,甚至還涉及到人的體態(tài)語言(如人在說話時的表情、手勢等行為動作可幫助對方理解),其最終目標(biāo)是實現(xiàn)人與機器進行自然語言通信。
不同的語音識別系統(tǒng),雖然具體實現(xiàn)細(xì)節(jié)有所不同,但所采用的基本技術(shù)相似,一個典型語音識別系統(tǒng)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個方面。此外,還涉及到語音識別單元的選取。
(一) 語音識別單元的選取
選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種,由具體的研究任務(wù)決定。
單詞(句)單元廣泛應(yīng)用于中小詞匯語音識別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫太龐大,訓(xùn)練模型任務(wù)繁重,模型匹配算法復(fù)雜,難以滿足實時性要求。
音節(jié)單元多見于漢語語音識別,主要因為漢語是單音節(jié)結(jié)構(gòu)的語言,而英語是多音節(jié),并且漢語雖然有大約1300個音節(jié),但若不考慮聲調(diào),約有408個無調(diào)音節(jié),數(shù)量相對較少。因此,對于中、大詞匯量漢語語音識別系統(tǒng)來說,以音節(jié)為識別單元基本是可行的。
音素單元以前多見于英語語音識別的研究中,但目前中、大詞匯量漢語語音識別系統(tǒng)也在越來越多地采用。原因在于漢語音節(jié)僅由聲母(包括零聲母有22個)和韻母(共有28個)構(gòu)成,且聲韻母聲學(xué)特性相差很大。實際應(yīng)用中常把聲母依后續(xù)韻母的不同而構(gòu)成細(xì)化聲母,這樣雖然增加了模型數(shù)目,但提高了易混淆音節(jié)的區(qū)分能力。由于協(xié)同發(fā)音的影響,音素單元不穩(wěn)定,所以如何獲得穩(wěn)定的音素單元,還有待研究。
(二) 特征參數(shù)提取技術(shù)
語音信號中含有豐富的信息,但如何從中提取出對語音識別有用的信息呢?特征提取就是完成這項工作,它對語音信號進行分析處理,去除對語音識別無關(guān)緊要的冗余信息,獲得影響語音識別的重要信息。對于非特定人語音識別來講,希望特征參數(shù)盡可能多的反映語義信息,盡量減少說話人的個人信息(對特定人語音識別來講,則相反)。從信息論角度講,這是信息壓縮的過程。
線性預(yù)測(LP)分析技術(shù)是目前應(yīng)用廣泛的特征參數(shù)提取技術(shù),許多成功的應(yīng)用系統(tǒng)都采用基于LP技術(shù)提取的倒譜參數(shù)。但線性預(yù)測模型是純數(shù)學(xué)模型,沒有考慮人類聽覺系統(tǒng)對語音的處理特點。
Mel參數(shù)和基于感知線性預(yù)測(PLP)分析提取的感知線性預(yù)測倒譜,在一定程度上模擬了人耳對語音的處理特點,應(yīng)用了人耳聽覺感知方面的一些研究成果。實驗證明,采用這種技術(shù),語音識別系統(tǒng)的性能有一定提高。
也有研究者嘗試把小波分析技術(shù)應(yīng)用于特征提取,但目前性能難以與上述技術(shù)相比,有待進一步研究。
(三)模式匹配及模型訓(xùn)練技術(shù)
模型訓(xùn)練是指按照一定的準(zhǔn)則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),而模式匹配則是根據(jù)一定準(zhǔn)則,使未知模式與模型庫中的某一個模型獲得最佳匹配。
語音識別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)主要有動態(tài)時間歸正技術(shù)(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò)(ANN)。
DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它應(yīng)用動態(tài)規(guī)劃方法成功解決了語音信號特征參數(shù)序列比較時時長不等的難題,在孤立詞語音識別中獲得了良好性能。但因其不適合連續(xù)語音大詞匯量語音識別系統(tǒng),目前已被HMM模型和ANN替代。
HMM模型是語音信號時變特征的有參表示法。它由相互關(guān)聯(lián)的兩個隨機過程共同描述信號的統(tǒng)計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態(tài)的Markor鏈,另一個是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機過程(可觀測的)。隱蔽Markor鏈的特征要靠可觀測到的信號特征揭示。這樣,語音等時變信號某一段的特征就由對應(yīng)狀態(tài)觀察符號的隨機過程描述,而信號隨時間的變化由隱蔽Markor鏈的轉(zhuǎn)移概率描述。模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)、狀態(tài)轉(zhuǎn)移概率及描述觀察符號統(tǒng)計特性的一組隨機函數(shù)。按照隨機函數(shù)的特點,HMM模型可分為離散隱馬爾可夫模型(采用離散概率密度函數(shù),簡稱DHMM)和連續(xù)隱馬爾可夫模型(采用連續(xù)概率密度函數(shù),簡稱CHMM)以及半連續(xù)隱馬爾可夫模型(SCHMM,集DHMM和CHMM特點)。一般來講,在訓(xùn)練數(shù)據(jù)足夠的,CHMM優(yōu)于DHMM和SCHMM。HMM模型的訓(xùn)練和識別都已研究出有效的算法,并不斷被完善,以增強HMM模型的魯棒性。
人工神經(jīng)元網(wǎng)絡(luò)在語音識別中的應(yīng)用是現(xiàn)在研究的又一熱點。ANN本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng),模擬了人類神經(jīng)元活動的原理,具有自學(xué)、聯(lián)想、對比、推理和概括能力。這些能力是HMM模型不具備的,但ANN又不個有HMM模型的動態(tài)時間歸正性能。因此,現(xiàn)在已有人研究如何把二者的優(yōu)點有機結(jié)合起來,從而提高整個模型的魯棒性。 二、語音識別的困難與對策
目前,語音識別方面的困難主要表現(xiàn)在:
(一)語音識別系統(tǒng)的適應(yīng)性差,主要體現(xiàn)在對環(huán)境依賴性強,即在某種環(huán)境下采集到的語音訓(xùn)練系統(tǒng)只能在這種環(huán)境下應(yīng)用,否則系統(tǒng)性能將急劇下降;另外一個問題是對用戶的錯誤輸入不能正確響應(yīng),使用不方便。
(二)高噪聲環(huán)境下語音識別進展困難,因為此時人的發(fā)音變化很大,像聲音變高,語速變慢,音調(diào)及共振峰變化等等,這就是所謂Lombard效應(yīng),必須尋找新的信號分析處理方法。
(三)語言學(xué)、生理學(xué)、心理學(xué)方面的研究成果已有不少,但如何把這些知識量化、建模并用于語音識別,還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續(xù)語音識別中是非常重要的。
(四)我們對人類的聽覺理解、知識積累和學(xué)習(xí)機制以及大腦神經(jīng)系統(tǒng)的控制機理等分面的認(rèn)識還很不清楚;其次,把這方面的現(xiàn)有成果用于語音識別,還有一個艱難的過程。
(五)語音識別系統(tǒng)從實驗室演示系統(tǒng)到商品的轉(zhuǎn)化過程中還有許多具體問題需要解決,識別速度、拒識問題以及關(guān)鍵詞(句)檢測技術(shù)等等技術(shù)細(xì)節(jié)要解決。
三、語音識別技術(shù)的前景和應(yīng)用
語音識別技術(shù)發(fā)展到今天,特別是中小詞匯量非特定人語音識別系統(tǒng)識別精度已經(jīng)大于98%,對特定人語音識別系統(tǒng)的識別精度就更高。這些技術(shù)已經(jīng)能夠滿足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展,這些復(fù)雜的語音識別系統(tǒng)也已經(jīng)完全可以制成專用芯片,大量生產(chǎn)。在西方經(jīng)濟發(fā)達國家,大量的語音識別產(chǎn)品已經(jīng)進入市場和服務(wù)領(lǐng)域。一些用戶交機、電話機、手機已經(jīng)包含了語音識別撥號功能,還有語音記事本、語音智能玩具等產(chǎn)品也包括語音識別與語音合成功能。人們可以通過電話網(wǎng)絡(luò)用語音識別口語對話系統(tǒng)查詢有關(guān)的機票、旅游、銀行信息,并且取得很好的結(jié)果。
語音識別是一門交叉學(xué)科,語音識別正逐步成為信息技術(shù)中人機接口的關(guān)鍵技術(shù),語音識別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進行操作。語音技術(shù)的應(yīng)用已經(jīng)成為一個具有競爭性的新興高技術(shù)產(chǎn)業(yè)。
參考文獻
[1]科大訊飛語音識別技術(shù)專欄. 語音識別產(chǎn)業(yè)的新發(fā)展.企業(yè)專欄.通訊世界,2007.2:(總l12期)
[2]任天平,門茂深.語音識別技術(shù)應(yīng)用的進展.科技廣場.河南科技,2005.2:19-20
[3]俞鐵城.科大訊飛語音識別技術(shù)專欄.語音識別的發(fā)展現(xiàn)狀.企業(yè)專欄.通訊世界,2006.2 (總122期)
[4]陳尚勤等.近代語音識別.西安:電子科技大學(xué)出版社,1991
關(guān)鍵詞:語音識別 應(yīng)用領(lǐng)域 熱點 難點
中圖分類號:TN912 文獻標(biāo)識碼:A 文章編號:1007-3973 (2010) 03-062-02
1應(yīng)用領(lǐng)域
如今,一些語音識別的應(yīng)用已經(jīng)應(yīng)用到實際生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系統(tǒng)等。語音識別的應(yīng)用領(lǐng)域非常廣泛,幾乎涉及到日常生活的方方面面。如語音撥號系統(tǒng)、、家庭服務(wù)、訂票系統(tǒng)、聲控智能玩具、醫(yī)療服務(wù)、銀行服務(wù)、聽寫機、計算機控制、工業(yè)控制、語音通信系統(tǒng)等。預(yù)計在不遠(yuǎn)的將來,語音識別技術(shù)將在工業(yè)、家電、通信、、醫(yī)療、家庭服務(wù)等各個領(lǐng)域深刻改變?nèi)祟惉F(xiàn)有的日常生活方式。語音識別聽寫機在一些領(lǐng)域的應(yīng)用被美國新聞界評為1997年計算機發(fā)展十件大事之一。很多專家都認(rèn)為語音識別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。
2發(fā)展歷史
語音識別的研究工作開始于50年代,Bell實驗室實現(xiàn)了第一個可識別十個英文數(shù)字的語音識別系統(tǒng)―Audry系統(tǒng)。但真正取得實質(zhì)性進展,并將其作為一個重要的課題開展研究則是在60年代末70年代初。60年代,提出了動態(tài)規(guī)劃(DP)和線性預(yù)測分析技術(shù)(LP),其中后者較好地解決了語音信號產(chǎn)生模型的問題,極大地促進了語音識別的發(fā)展。70年代,動態(tài)時間歸正技術(shù)(DTW)解決了語音特征不等長匹配問題,對特定人孤立詞語音識別十分有效,在語音識別領(lǐng)域取得了突破。在此期間還提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
80年代語音識別研究進一步深入,HMM模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音識別中成功應(yīng)用。1988年,FULEE Kai等用VQ/I-IMM方法實現(xiàn)了997個詞匯的非特定人連續(xù)語音識別系統(tǒng)SPHINX。這是世界上第1個高性能的非特定人、大詞匯量、連續(xù)語音識別系統(tǒng)。人們終于在實驗室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,并以此確定了統(tǒng)計方法和模型在語音識別和語言處理中的主流地位。使得借助人工智能中的啟發(fā)式搜索和語音模型自身的特點,高效、快捷的算法使得建立實時的連續(xù)語音識別系統(tǒng)成為可能。
90年代,人們開始進一步研究語音識別與自然語言處理的結(jié)合,逐步發(fā)展到基于自然口語識別和理解的人機對話系統(tǒng)。人工神經(jīng)元網(wǎng)絡(luò)(ANN)也開始應(yīng)用于語音識別,它和HMM模型建立的語音識別系統(tǒng)性能相當(dāng),在很多系統(tǒng)中還被結(jié)合在一起使用以提高識別率及系統(tǒng)的魯棒性。小波分析也開始用于特征提取,但目前性能不理想,其研究還在進一步深入中。
現(xiàn)在語音識別系統(tǒng)已經(jīng)開始從實驗室走向?qū)嵱?出現(xiàn)了比較成熟的已推向市場的產(chǎn)品。許多發(fā)達國家如美國、日本、韓國以及IBM、Apple、Microsoft、AT&T等著名公司都為語音識別系統(tǒng)的實用化開發(fā)研究投以巨資。
3研究的熱點與難點
目前語音識別領(lǐng)域的研究熱點包括:穩(wěn)健語音識別(識別的魯棒性)、語音輸入設(shè)備研究 、聲學(xué)HMM模型的細(xì)化、說話人自適應(yīng)技術(shù)、大詞匯量關(guān)鍵詞識別、高效的識別(搜索)算法研究 、可信度評測算法研究、ANN的應(yīng)用、語言模型及深層次的自然語言理解。
目前研究的難點主要表現(xiàn)在:(1)語音識別系統(tǒng)的適應(yīng)性差。主要體現(xiàn)在對環(huán)境依賴性強。(2)高噪聲環(huán)境下語音識別進展困難,因為此時人的發(fā)音變化很大,像聲音變高,語速變慢,音調(diào)及共振峰變化等等,必須尋找新的信號分析處理方法。(3)如何把語言學(xué)、生理學(xué)、心理學(xué)方面知識量化、建模并有效用于語音識別,目前也是一個難點。(4)由于我們對人類的聽覺理解、知識積累和學(xué)習(xí)機制以及大腦神經(jīng)系統(tǒng)的控制機理等方面的認(rèn)識還很不清楚,這必將阻礙語音識別的進一步發(fā)展。
4語音識別系統(tǒng)
一個典型的語音識別系統(tǒng)如圖所示:
輸入的語言信號首先要進行反混疊濾波、采樣、A/D轉(zhuǎn)換等過程進行數(shù)字化,之后要進行預(yù)處理,包括預(yù)加重、加窗和分幀、端點檢測等。我們稱之為對語音信號進行預(yù)處理。
語音信號的特征參數(shù)主要有:短時能量En,反映語音振幅或能量隨著時間緩慢變化的規(guī)律;短時平均過零率Zn,對于離散信號來講,簡單的說就是樣本改變符號的次數(shù),可以粗略分辨清音和濁音;短時自相關(guān)函數(shù);經(jīng)過FFT或LPC運算得到的功率譜,再經(jīng)過對數(shù)運算和傅里葉反變換以后得到的倒譜參數(shù);根據(jù)人耳聽覺特性變換的美爾(MEL);線性預(yù)測系數(shù)等。通常識別參數(shù)可選擇上面的某一種或幾種的組合。
語音識別是語音識別系統(tǒng)最核心的部分。包括語音的聲學(xué)模型(訓(xùn)練學(xué)習(xí))與模式匹配(識別算法)以及相應(yīng)的語言模型與語言處理2大部分。聲學(xué)模型用于參數(shù)匹配,通常在模型訓(xùn)練階段按照一定的準(zhǔn)則,由用語音特征參數(shù)表征的大量已知模式中通過學(xué)習(xí)算法來獲取代表該模式本質(zhì)特征的模型參數(shù)而產(chǎn)生。在識別(模式匹配)時將輸入的語音特征同聲學(xué)模型(模式)根據(jù)一定準(zhǔn)則進行匹配與比較,使未知模式與模型庫中的某一個模型獲得最佳匹配以得到最佳的識別結(jié)果。語言模型一般指在匹配搜索時用于字詞和路徑約束的語言規(guī)則,它包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由統(tǒng)計方法構(gòu)成的語言模型,語言處理則可以進行語法、語義分析。
聲學(xué)模型是語音識別系統(tǒng)中最關(guān)鍵的一部分。目前最常用也最有效的幾種聲學(xué)識別模型包括動態(tài)時間歸整模型(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)網(wǎng)絡(luò)模型(ANN)等。
DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它把整個單詞作為識別單元,在訓(xùn)練階段將詞匯表中每個詞的特征矢量序列作為模板存入模板庫,在識別階段將待識別語音的特征矢量序列依次與庫中的每個模板進行相似度比較,將相似度最高者作為識別結(jié)果輸出。DTW應(yīng)用動態(tài)規(guī)劃方法成功解決了語音信號特征參數(shù)序列比較時時長不等的難題,在小詞匯量、孤立詞語音識別中獲得了良好性能。但因其不適合連續(xù)語音大詞匯量語音識別系統(tǒng),目前已逐漸被HMM和ANN模型替代。
HMM模型是語音信號時變特征的有參表示法。它由相互關(guān)聯(lián)的兩個隨機過程共同描述信號的統(tǒng)計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態(tài)的Markor鏈,另一個是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機過程(可觀測的)。HMM很好的模擬了人得語言過程,目前應(yīng)用十分廣泛。HMM模型的模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)(狀態(tài)數(shù)目N、狀態(tài)之間的轉(zhuǎn)移方向等)、每個狀態(tài)可以觀察到的符號數(shù)M(符號集合O)、狀態(tài)轉(zhuǎn)移概率A及描述觀察符號統(tǒng)計特性的一組隨機函數(shù),包括觀察符號的概率分布B和初始狀態(tài)概率分布 ,因此一個HMM模型可以由{N,M,A,B, }來確定,對詞匯表中的每一個詞都要建立相應(yīng)的HMM模型。
模型參數(shù)得到后可以用Viterbi算法來確定與觀察序列對應(yīng)的最佳的狀態(tài)序列。建好模型后,在識別階段就是要計算每個模型產(chǎn)生觀察符號序列的輸出概率,輸出概率最大的模型所表示的詞就是我們的識別結(jié)果。這個過程計算量很大,有人提出了前向-后向算法,大大減少了計算量,已經(jīng)被廣泛采用,關(guān)于它們的各種改進方法也被大量提出。
ANN在語音識別中的應(yīng)用是現(xiàn)在研究的又一熱點。ANN本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng),是由結(jié)點互連組成的計算網(wǎng)絡(luò),模擬了人類大腦神經(jīng)元活動的基本原理,具有自學(xué)習(xí)能力、記憶、聯(lián)想、推理、概括能力和快速并行實現(xiàn)的特點,同時還具備自組織、自適應(yīng)的功能。這些能力是HMM模型不具備的,可用于處理一些環(huán)境信息十分復(fù)雜,背景知識不清楚,推理規(guī)則不明確的問題,允許樣品有較大的缺損、畸變,因此對于噪聲環(huán)境下非特定人的語音識別問題來說是一種很好的解決方案。目前大部分應(yīng)用神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)都采用了BP網(wǎng)并取得了較好的識別效果。
將ANN與HMM結(jié)合分別利用各自優(yōu)點進行識別將是今后的一條研究途徑。二者結(jié)合的混合語音識別方法的研究開始于上世紀(jì)90年代,目前已有一些方法將ANN輔助HMM進行計算和學(xué)習(xí)概率參數(shù)。
語言模型主要分為規(guī)則模型和統(tǒng)計模型兩種。統(tǒng)計語言模型是用概率統(tǒng)計的方法來揭示語言單位內(nèi)在的統(tǒng)計規(guī)律,其中N-Gram簡單有效,被廣泛使用。N-Gram模型基于這樣一種假設(shè):第n個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料庫中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
5總結(jié)
盡管語音識別技術(shù)已經(jīng)取得了長足的進步,而語音識別系統(tǒng)也層出不窮,不斷的改變?nèi)祟惉F(xiàn)有的生活方式,但其比較成功的應(yīng)用也只是在某些特定的領(lǐng)域,談不上大規(guī)模廣泛的應(yīng)用。只有建立從聲學(xué)、語音學(xué)到語言學(xué)的知識為基礎(chǔ)、以信息論、模式識別數(shù)理統(tǒng)計和人工智能為主要實現(xiàn)手段的語音處理機制,把整個語音識別過程從系統(tǒng)工程的高度進行分析構(gòu)建,才有可能獲得能與人類相比的高性能的、完整的計算機語音識別系統(tǒng)。
參考文獻:
[1]易克初,田斌.付強.語音信號處理[M].國防工業(yè)出版社,2000.
[2]胡航.語音信號處理[M].哈爾濱工業(yè)大學(xué)出版社,2000.
[3]趙力.語音信號處理[M].機械工業(yè)出版社,2003.
【關(guān)鍵詞】語音識別 語言模型 聲學(xué)模型 人工智能
使用智能手機的朋友們都會對語音助手產(chǎn)生極大的興趣,不管是微軟的Cortana,還是蘋果的Siri,都是將語音識別融入現(xiàn)代技術(shù)的典范。Z音識別是解決機器“聽懂”人類語言的一項技術(shù),也是人工智能重要部分。
語音識別技術(shù)(speech recognition),也被稱為自動語音識別 (ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認(rèn)不同,后者嘗試識別或確認(rèn)發(fā)出語音的說話人而前者的目標(biāo)是語音中所包含的詞匯內(nèi)容。
探究語音識別技術(shù)的框架、應(yīng)用與發(fā)展有利于全面了解語音識別。本文將從語音識別簡介、主流語言識別框架以及語言識別近年來的發(fā)展三個方面探究語音識別。
1 語音識別簡介
1.1 傳統(tǒng)語言識別技術(shù)發(fā)展
對語音識別技術(shù)的研究可以追述到上世紀(jì)五十年代,1952年貝爾研究所Davis等人研究成功了世界上第一個能識別10個英文數(shù)字發(fā)音的實驗系統(tǒng),開創(chuàng)了語音識別的先河。上世紀(jì)六十年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語音識別。上世紀(jì)七十年代以后,大規(guī)模的語音識別在小詞匯量、孤立詞的識別方面取得了實質(zhì)性的進展。傳統(tǒng)語音識別技術(shù)最大突破是隱式馬爾可夫模型的應(yīng)用,這一模型極大提高了語音識別的準(zhǔn)確率[1]。
1.2 語言識別的應(yīng)用
作為智能計算機研究的主導(dǎo)方向和人機語音通信的關(guān)鍵技術(shù),語音識別一直受到各國科學(xué)界的廣泛關(guān)注。如今,隨著語音識別技術(shù)的研究的突破,其對計算機發(fā)展和社會生活的重要性日益凸現(xiàn)出來。在現(xiàn)實生活中,語音識別技術(shù)的應(yīng)用相當(dāng)廣泛,它改變了人與計算機交互的方式,使計算機更加智能。和鍵盤輸入相比,語音識別更符合人的日常習(xí)慣;使用語言控制系統(tǒng),相比手動控制,語音識別更加方便快捷,可以用在工業(yè)控制、智能家電等設(shè)備;通過智能對話查詢系統(tǒng),企業(yè)可以根據(jù)用戶的語音進行操作,為用戶提供自然、友好的數(shù)據(jù)檢索服務(wù)。
2 語音識別框架
目前主流的語音識別框架可以分為以下幾個模塊:信號處理,特征提取,聲學(xué)模型,語言模型,解碼器。
2.1 信號處理
信號處理模塊是對語音文件進行預(yù)處理。聲音是一種縱波,在識別語音時,輸入為WMV,MP3等格式的文件會被轉(zhuǎn)換成非壓縮的純波文件wav格式。然后在進行語音識別前,需要檢測該文件中的語音信號,該技術(shù)被稱之為語音活性檢測[2]。使用語言活性檢測技術(shù)可以有效降低噪音,去除非語音片段,提高語音識別的準(zhǔn)確率。經(jīng)典的語音活性檢測算法由如下步驟組成:
(1)使用spectral subtraction等方法對語言序列進行降噪。(2)將輸入信號的分成區(qū)塊并提取特征。(3)設(shè)計分類器判斷該區(qū)塊是否為語音信號。
2.2 特征提取
特征提取目的是提取出語音文件的特征,以一定的數(shù)學(xué)方式表達,從而可以參與到后續(xù)模塊處理中。在這一模塊,首先要將連續(xù)的聲音分成離散的幀。每一幀的時間既要足夠長,使得我們能夠判斷它屬于哪個聲韻母的信息,若過短則包含信息過少;每一幀時間也要盡量短,語音信號需要足夠平穩(wěn),能夠通過短時傅里葉分析進行特征提取,過長則會使信號不夠平穩(wěn)。分幀時使用如下改進技術(shù)可以有效提高識別準(zhǔn)確率:相鄰的兩幀有所重疊減少分割誤差,將與臨近幀之間的差分作為額外特征,將多個語音幀堆疊起來。通過分幀處理,連續(xù)的語音被分為離散的小段,但還缺乏數(shù)學(xué)上的描述能力,因此需要對波形作特征提取。常見的方法是根據(jù)人耳的生理特征,把每一幀波形變換成一個多維向量。因此,這些向量包含了這些語音的內(nèi)容信息。該過程被稱為聲學(xué)特征提取,常見的聲學(xué)特征有MFCC、CPE、LPC等。
MFCC是目前最常用、最基本的聲學(xué)特征,提取MFCC特征可以分為如下四個步驟:首先對每一幀進行傅里葉變換,取得每一幀的頻譜。再把頻譜與圖1中每個三角形相乘并積分,求出頻譜在每一個三角形下的能量,這樣處理可以減少數(shù)據(jù)量,并模仿人耳在低頻處分辨率高的特性。然后取上一步得到結(jié)果的對數(shù),這可以放大低能量處的能量差異。最后對得到的對數(shù)進行離散余弦變換,并保留前12~20個點進一步壓縮數(shù)據(jù)。通過特征提取,聲音序列就被轉(zhuǎn)換為有特征向量組成的矩陣。
2.3 聲學(xué)模型
聲學(xué)模型是語音識別中最重要的組成部分之一,其用于語音到音節(jié)概率的計算。目前主流的方法多數(shù)采用隱馬爾科夫模型,隱馬爾可夫模型的概念是一個離散時域有限狀態(tài)自動機。
隱馬爾可夫模型HMM如圖2所示,是指這一馬爾可夫模型的內(nèi)部狀態(tài)x1,x2,x3外界不可見,外界只能看到各個時刻的輸出值y1,y2,y3。對語音識別系統(tǒng),輸出值通常就是從各個幀計算而得的聲學(xué)特征,輸入是由特征提取模塊提取的特征。用HMM刻畫語音信號需作出兩個假設(shè),一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān),另一是輸出值Y只與當(dāng)前狀態(tài)X(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān),這兩個假設(shè)大大降低了模型的復(fù)雜度。HMM的打分、解碼和訓(xùn)練相應(yīng)的算法是前向算法、維特比算法和前向后向算法。
早期的聲學(xué)模型使用矢量量化(Vector Quantification)的方法,使其性能受到VQ算法的極大影響。對于連續(xù)取值的特征應(yīng)當(dāng)采用連續(xù)的概率分布如高斯混合模型或混合拉普拉斯模型等。為了解決模型參數(shù)過多的問題,可以使用某些聚類方法來減小模型中的參數(shù)數(shù)量,提高模型的可訓(xùn)練性。聚類可以在模型層次,狀態(tài)層次乃至混合高斯模型中每個混合的層次進行。
2.4 語言模型
語言模型音節(jié)到字概率的計算。 語言模型主要分為規(guī)則模型和統(tǒng)計模型兩種。相比于統(tǒng)計模型,規(guī)則模型魯棒性較差,對非本質(zhì)錯誤過于嚴(yán)苛,泛化能力較差,研究強度更大。因此主流語音識別技術(shù)多采用統(tǒng)計模型。統(tǒng)計模型采用概率統(tǒng)計的方法來揭示語言單位內(nèi)在的統(tǒng)計規(guī)律,其中N-Gram簡單有效,被廣泛使用。
N-Gram基于如下假設(shè):第N個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率即為各個詞出現(xiàn)概率的乘積。詞與詞之間的概率可以直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到??紤]計算量和效果之間的平衡,N取值一般較小,常用的是二元的Bi-Gram和三元的Tri-Gram。
2.5 解碼器
解碼器是語音識別系統(tǒng)的核心之一,其任務(wù)是對輸入信號,根據(jù)聲學(xué)、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。在實踐中較多采用維特比算法[3]搜索根據(jù)聲學(xué)、語言模型得出的最優(yōu)詞串。
基于動態(tài)規(guī)劃的維特比算法在每個時間點上的各個狀態(tài),計算解碼狀態(tài)序列對觀察序列的后驗概率,保留概率最大的路徑,并在每個節(jié)點記錄下相應(yīng)的狀態(tài)信息以便最后反向獲取詞解碼序列。維特比算法在不喪失最優(yōu)解的條件下,同時解決了連續(xù)語音識別中HMM模型狀態(tài)序列與聲學(xué)觀察序列的非線性時間對準(zhǔn)、詞邊界檢測和詞的識別,從而使這一算法成為語音識別搜索的基本策略。
維特比(Viterbi)算法的時齊特性使得同一時刻的各條路徑對應(yīng)于同樣的觀察序列,因而具有可比性,Beam搜索在每一時刻只保留概率最大的前若干條路徑,大幅度的剪枝提高了搜索的效率。Viterbi-Beam算法是當(dāng)前語音識別搜索中最有效的算法。
3 語音識別技術(shù)的發(fā)展
近幾年來,特別是2009年以來,借助機器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展,以及大數(shù)據(jù)語料的積累,語音識別技術(shù)得到突飛猛進的發(fā)展。
在模型方面,傳統(tǒng)語音識別模型逐步被神經(jīng)網(wǎng)絡(luò)替代,使用神經(jīng)網(wǎng)絡(luò)可以更好地提取特征,擬合曲線。使用人工神經(jīng)網(wǎng)絡(luò)來提高語音識別性能的概念最早在80年代就提出了,但當(dāng)時高斯混合模型在大詞匯語音識別上表現(xiàn)得更好,因此人工神經(jīng)網(wǎng)絡(luò)并沒有進行商業(yè)應(yīng)用。隨著相關(guān)技術(shù)的進一步發(fā)展,微軟研究院利用深度神經(jīng)網(wǎng)絡(luò)建立了數(shù)千個音素的模型,比傳統(tǒng)方法減少了16%的相對誤差。其在建立起有超過660萬神經(jīng)聯(lián)系的網(wǎng)絡(luò)后,將總的語音識別錯誤率降低了30%,實現(xiàn)了語音識別巨大的突破[4]。
同時目前多數(shù)主流語言識別解碼器采用了基于有限狀態(tài)機的解碼網(wǎng)絡(luò),該網(wǎng)絡(luò)將語音模型、詞典、聲學(xué)共享音字集統(tǒng)一為大的解碼網(wǎng)絡(luò),大幅度提高了解碼速度。
在數(shù)據(jù)量上,由于移動互聯(lián)網(wǎng)的急速發(fā)展,從多個渠道獲取的海量語言原料為聲學(xué)模型和語言模型的訓(xùn)練提供了豐富的資源,不斷提升語音識別的準(zhǔn)確率。
4 結(jié)語
語音是人們工作生活中最自然的交流媒介,所以語音識別技術(shù)在人機交互中成為非常重要的方式,語音識別技術(shù)具有非常廣泛的應(yīng)用領(lǐng)域和非常廣闊的市場前景。而隨著深度神經(jīng)網(wǎng)絡(luò)發(fā)展,硬件計算能力的提高,以及海量數(shù)據(jù)積累,語音識別系統(tǒng)的準(zhǔn)確率和實用性將得到持續(xù)提高。
參考文獻:
[1]S基百科編者.語音識別[G/OL].維基百科,2016(20160829)[2016-08-29].
[2]維基百科編者.語音活性檢測[G/OL].維基百科,2016(20160629)[2016-06-29].
[3]維基百科編者.維特比算法[G/OL].維基百科,2016(20160920)[2016-09-20].
[4] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1):30-42.
【關(guān)鍵詞】 語音識別 通話 大數(shù)據(jù) 互聯(lián)網(wǎng)
該文主要致力于解決通話中的語音識別技術(shù),長期可推廣至QQ語音聊天等即時聊天軟件中,相較于目前大多數(shù)語音識別軟件需要手動打開更為主動,讓用戶感覺不到軟件的存在,將該技術(shù)深度整合到系統(tǒng)或QQ服務(wù)中在通話結(jié)束后針對通話中涉及的電話號碼、地點、時間等關(guān)鍵信息進行信息的推送,大大提高了效率,并對聽力有障礙的人士有更為重要的意義。
一、語音識別基本原理
語音識別系統(tǒng)本質(zhì)上是一種模式識別系統(tǒng),包括特征提取、模式匹配、參考模式庫等三個基本單元,未知語音經(jīng)過話筒變換成電信號后加在識別系統(tǒng)的輸入端,首先經(jīng)過預(yù)處理,再根據(jù)人的語音特點建立語音模型,對輸入的語音信號進行分析,并抽取所需的特征,在此基礎(chǔ)上建立語音識別所需的模板,然后根據(jù)此模板的定義,通過查表就可以給出計算機的識別結(jié)果。 [1]
二、通話中語音識別技術(shù)
2.1技術(shù)原理:
1、基本架構(gòu):Smartalk通話系統(tǒng)基于“云之訊”開放平臺提供的語音視頻通話服務(wù)和“科大訊飛”開放平臺提供的語音識別服務(wù),并加以對手機GPS位置、通訊錄、社交軟件信息的分析,在“云”的輔助下對之進行處理和交換。Smartalk架構(gòu)分為4個部分:客戶端、語音視頻服務(wù)、語音識別服務(wù)、云數(shù)據(jù)處理分析。利用“云之訊”開放平臺提供的語音視頻通話服務(wù)和“科大訊飛”開放平臺提供的語音識別服務(wù)可將用戶在通話中涉及的地點、人名、電話號碼等關(guān)鍵詞提取出來并加以分析對行程和下一步操作提供幫助。
2、基本平臺:本系統(tǒng)基于APIcloud開發(fā),兼容云端和第三方SDK,可跨平臺(Android、IOS、Windows等)使用,采用標(biāo)準(zhǔn)的c++語言實現(xiàn)。
2.2功能實現(xiàn):
1、基于“云之訊”開放平臺的通話系統(tǒng):云之訊融合通訊開放平臺為企業(yè)及個人開發(fā)者提供各種通訊服務(wù),包括在線語音服務(wù)、短信服務(wù)、視頻服務(wù)、會議服務(wù)等,開發(fā)者通過嵌入云通訊API在應(yīng)用中輕松實現(xiàn)各種通訊功能。
2、基于“科大訊飛”開放平臺的語音識別系統(tǒng):。訊飛開放平臺使用戶可通過互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng),使用任何設(shè)備方便的介入訊飛開放平臺提供的“聽、說、讀、寫”等全方位的人工智能服務(wù)。目前開放平臺向開發(fā)者提供語音合成、語音識別、語音喚醒、語義理解、移動應(yīng)用分析等多項服務(wù)。
3、語音識別與云端大數(shù)據(jù)結(jié)合分析:。利用基于“云之訊”通話系統(tǒng)和“科大訊飛”語音識別系統(tǒng)實現(xiàn)了實時的語音識別,加以云端大數(shù)據(jù)的結(jié)合,和實時的分析用戶當(dāng)前的需求和問題,及時的跟用戶產(chǎn)生交流反饋,并根據(jù)用戶長期的使用時間分析智能提前推送相關(guān)信息。
2.3未來展望:
基于大數(shù)據(jù)和互聯(lián)網(wǎng)+技術(shù)的日益發(fā)展與完善,并隨著通信傳輸速度的逐漸提高,可在實時的條件下分析與推送更多豐富的內(nèi)容,加以與即時聊天軟件的結(jié)合,將該技術(shù)深度整合到系統(tǒng)或QQ服務(wù)中在通話結(jié)束后針對通話中涉及的電話號碼、地點、時間等關(guān)鍵信息進行信息的推送,并對聽力有障礙的人士有更為重要的意義,未來的市場前景廣闊。
三、語音識別技術(shù)應(yīng)用
3.1 語音指令控制在汽車上的應(yīng)用:
語音控制人員只需要用嘴說出命令控制字,就可以實現(xiàn)對系統(tǒng)的控制。在汽車上,可用于汽車導(dǎo)航、控制車載設(shè)備。如車燈、音響、天窗、座椅、雨刮器等。
3.2語音識別技術(shù)在醫(yī)療系統(tǒng)中的應(yīng)用:
醫(yī)療語音識別技術(shù),已有廠商開發(fā)了基于云平臺的語音識別系統(tǒng),可直接內(nèi)嵌到醫(yī)院電子病歷系統(tǒng)中,讓醫(yī)生通過語音輸入病人信息,填寫醫(yī)療記錄,下達醫(yī)囑信息。
四、相關(guān)市場調(diào)研
1、國內(nèi)外市場分析:2015年全球智能語音產(chǎn)業(yè)規(guī)模達到61.2億美元,較2014年增長34.2%。其中,中國智能語音產(chǎn)業(yè)規(guī)模達到40.3億元,較2014年增長增長41.0%,遠(yuǎn)高于全球語音產(chǎn)業(yè)增長速度預(yù)計到2016年,中國語音產(chǎn)業(yè)規(guī)模預(yù)計達到59億元。[2]
2、相關(guān)應(yīng)用發(fā)展:拉斯維加斯消費電子展(CES)上展示的MindMeld。在通話中,如果參與者點擊應(yīng)用的一個按鈕,那么MindMeld將利用Nuance的語音識別技術(shù),分析此前15至30秒對話。隨后,MindMeld將確定對話中的關(guān)鍵詞,以及其他多個信息來源,查找具有相關(guān)性的信息,并在屏幕上向用戶提供圖片和鏈接地址。[3]
參 考 文 獻
[1] 吳堅.基于web的salt語音識別技術(shù)應(yīng)用研究[D].湖北工業(yè)大學(xué), 2006
1.概況
語音識別技術(shù)成為21世紀(jì)“數(shù)字時代”的重要開發(fā)領(lǐng)域,在計算機的多媒體技術(shù)應(yīng)用和工業(yè)自動化控制應(yīng)用等方面,成果令人屬目。語音識別技術(shù)是指用電子裝置來識別某些人的某些特征語音,語音識別的手段一般分為二大類,一類利用在計算機上開發(fā)語音識別系統(tǒng),通過編程軟件達到對語音的識別,另一類采用專門的語音識別芯片來進行簡單的語音識別。利用專門的語音識別芯片應(yīng)用在地鐵車輛上,具有結(jié)構(gòu)簡單、使用方便,并且語音識別器有較高的可靠性、穩(wěn)定性的特點,是簡單語音識別在自動控制應(yīng)用上的一種優(yōu)先方案。
目前上海地鐵
一、
二、
三、
五、
六、八號線在車輛信息顯示系統(tǒng)的設(shè)計上缺少實用性和操作性,對乘客來講缺少在實時報站時的人性化。如:地鐵車廂內(nèi)的乘客信息顯示系統(tǒng)和車廂外側(cè)的列車信息顯示系統(tǒng)。如果在每個車門的上方安裝車站站名動態(tài)顯示地圖,實時顯示與車廂廣播同步的信息,以及在每節(jié)車廂外側(cè)顯示列車的終點站,良好的工業(yè)設(shè)計不僅能給廣大的乘客帶來非常大的幫助,而且能夠提升上海地鐵服務(wù)的形象。由于在設(shè)計以上地鐵列車時,受科技發(fā)展的限制?,F(xiàn)在上海地鐵4號線在車輛信息顯示系統(tǒng)的設(shè)計上滿足了廣大的乘客的需求,
增加了車站站名動態(tài)顯示地圖。
如何在現(xiàn)有的地鐵車輛上增加地鐵車廂內(nèi)的乘客信息顯示系統(tǒng)和車廂外側(cè)的列車信息顯示系統(tǒng),如圖1、2,首先考慮其實用性和性價比,同時安裝、操作要方便,在不影響列車的性能的前提下,完成本乘客信息顯示系統(tǒng)的應(yīng)用,設(shè)計方案的選擇極其重要,目前的乘客信息顯示系統(tǒng)比較復(fù)雜,例如:對于應(yīng)用在某條線路上的聲音識別系統(tǒng),不僅要修改原語音文件,而且聲音識別器不容易操縱,
對使用者來講仍然存在比較多的問題。對于應(yīng)用在某條線路上數(shù)字傳輸顯示系統(tǒng),其操作方法不僅給司機帶來了任務(wù),每站需要手動操作二次,同時顯示的相關(guān)內(nèi)容沒有實時性,總之乘客信息顯示系統(tǒng)比較落后。
設(shè)計一種符合現(xiàn)代化要求的乘客信息顯示系統(tǒng)是非常必要。
2.設(shè)計
地鐵車輛乘客信息顯示系統(tǒng)的設(shè)計,采用CMOS語音識別大規(guī)模集成電路,識別響應(yīng)時間小于300ms。HM2007芯片采用單片結(jié)構(gòu),如圖3。將語音識別需要的全部電路:CPU、A/D、ROM、語音的AMP放大器、壓縮器、濾波器、震蕩器和接口界面等集中在一片芯片內(nèi),這樣電路就非常少,外接64K非易失性SRAM,最多能識別40個車站站名語音(字長0.9秒),或(字長1.92秒)但識別僅20個車站站名語音。按正常人的講話速度,0.9秒一般每秒吐字1到3個為宜。
針對目前上海地鐵列車在車廂內(nèi)外無LED動態(tài)站名顯示而設(shè)計,通過將列車車廂廣播的模擬信號轉(zhuǎn)換成數(shù)字信號,自動控制LED發(fā)光二極管,在列車在車廂內(nèi)使得廣播的內(nèi)容(每個車站站名)與發(fā)光二極管顯示面板聲光同步,將顯示面板放置地鐵車輛的每扇車門上方,并且顯示面板以地鐵運營線路為背景,達到列車進站和出站時能分別指示。在列車車廂外讓乘客非常直觀地、一目了然地了解車輛的終點站方向,從而方便乘客的上下車,提高了地鐵服務(wù)水平。在國外的地鐵列車上應(yīng)用已相當(dāng)普遍。
語音識別顯示器①的輸入端與車載廣播功放器相連接,實現(xiàn)廣播模擬信號發(fā)出的語音進行車站名的自動識別。不需要編程技術(shù)和修改文件等方法,全部采用硬件方法設(shè)計。整個系統(tǒng)分為5部分:(1)輸入控制部分;(2)噪音濾波部分;(3)語言識別部分;(4)執(zhí)行顯示部分;(5)錄音功能部分。
(1)輸入控制部分:
通過麥克風(fēng)或(結(jié)合器)連接,如圖4所示,要求模擬語音輸入點的電壓必須控制在大約20mv左右,以確保后期語音識別的正確性。在輸入電路中增加了聲音控制部分的電路,即將模擬信號轉(zhuǎn)變成數(shù)字方波信號,對語音輸入進行開關(guān)量的控制,確保在T<0.9秒內(nèi)的正確輸入語音字長。
(2)語音識別部分:
利用語音識別芯片HM2007和外接6264SRAM存儲器組成為主要部分,(HM2007中ROM已經(jīng)固化了語音語法技術(shù))對語音的存儲及語音語法算法進行控制。HM2007的詳細(xì)內(nèi)容見產(chǎn)品說明書。
(3)噪音濾波部分:
濾波功能是自動識別(阻擋)我們在設(shè)計階段設(shè)計好的各個工況的語音情況,例如:司機的講話及車輛雜音等(在麥克風(fēng)的工況下),以確保輸入語音的可靠性、穩(wěn)定性,特采用UM3758串行編譯碼一體化進行濾波電路。如圖5。
(4)執(zhí)行顯示部分:
將車廂廣播喇叭的模擬信息通過語音識別器轉(zhuǎn)變成數(shù)字信息,最終經(jīng)過譯碼電路、4/16多路數(shù)據(jù)選擇器及RS485接口,去控制車廂內(nèi)車門上十個LED顯示面板,如圖6。
(5)錄音功能部分:
在進行廣播內(nèi)容更改時,本項目最大的特點是:不需要任何手段的手工軟件編程的修改,而是通過遠(yuǎn)程音頻電路控制技術(shù)進行按動相關(guān)按鈕,選擇地址然后自動錄入內(nèi)容,如圖6。
3.結(jié)論
語音識別器及LED顯示面板的設(shè)計,能應(yīng)用到以前沒有LED顯示面功能的地鐵車輛上,與其他所設(shè)計的方式相比較,語音識別控制簡單、可靠性好、安裝方便、相對投資最小和不改動車廂內(nèi)任何電器為特點,僅提供110VDC電源和音頻輸入接口。
本項目的開發(fā)具有一定社會效益,得到國內(nèi)外乘客和殘疾人員的歡迎,提高了地鐵服務(wù)質(zhì)量。
參考文獻:
1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007
2.555集成電路實用大全上??萍计占俺霭嫔?/p>
3.①獲得“2003年上海市優(yōu)秀發(fā)明選拔賽三等獎”
4.①編入《中國科技發(fā)展精典文庫》第四輯
關(guān)鍵詞: 語音識別; 識別原理; 聲學(xué)建模方法; 多維模式識別系統(tǒng)
中圖分類號: TN912.3?34 文獻標(biāo)識碼: A 文章編號: 1004?373X(2013)13?0043?03
Summary of speech recognition technology and its application
YU Lin?lin
(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)
Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.
Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system
0 引 言
語言是人類相互交流最常用、最有效、最重要和最方便的通信形式,語音是語言的聲學(xué)表現(xiàn),與機器進行語音交流是人類一直以來的夢想。隨著計算機技術(shù)的飛速發(fā)展,語音識別技術(shù)也取得突破性的成就,人與機器用自然語言進行對話的夢想逐步接近實現(xiàn)。語音識別技術(shù)的應(yīng)用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領(lǐng)域也發(fā)揮著極其重要的作用。它是信息社會朝著智能化和自動化發(fā)展的關(guān)鍵技術(shù),使人們對信息的處理和獲取更加便捷,從而提高人們的工作效率。
1 語音識別技術(shù)的發(fā)展
語音識別技術(shù)起始于20世紀(jì)50年代。這一時期,語音識別的研究主要集中在對元音、輔音、數(shù)字以及孤立詞的識別。
20世紀(jì)60年代,語音識別研究取得實質(zhì)性進展。線性預(yù)測分析和動態(tài)規(guī)劃的提出較好地解決了語音信號模型的產(chǎn)生和語音信號不等長兩個問題,并通過語音信號的線性預(yù)測編碼,有效地解決了語音信號的特征提取。
20世紀(jì)70年代,語音識別技術(shù)取得突破性進展?;趧討B(tài)規(guī)劃的動態(tài)時間規(guī)整(Dynamic Time Warping, DTW)技術(shù)基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論[1]。
20世紀(jì)80年代,語音識別任務(wù)開始從孤立詞、連接詞的識別轉(zhuǎn)向大詞匯量、非特定人、連續(xù)語音的識別,識別算法也從傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的方法轉(zhuǎn)向基于統(tǒng)計模型的方法。在聲學(xué)模型方面,由于HMM能夠很好的描述語音時變性和平穩(wěn)性,開始被廣泛應(yīng)用于大詞匯量連續(xù)語音識別(Large Vocabulary Continous Speech Recognition, LVCSR)的聲學(xué)建模[2?3];在語言模型方面,以N元文法為代表的統(tǒng)計語言模型開始廣泛應(yīng)用于語音識別系統(tǒng)[4]。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經(jīng)網(wǎng)絡(luò)的語音建模方法開始廣泛應(yīng)用于LVCSR系統(tǒng),語音識別技術(shù)取得新突破。
20世紀(jì)90年代以后,伴隨著語音識別系統(tǒng)走向?qū)嵱没?,語音識別在細(xì)化模型的設(shè)計、參數(shù)提取和優(yōu)化、系統(tǒng)的自適應(yīng)方面取得較大進展[5]。同時,人們更多地關(guān)注話者自適應(yīng)、聽覺模型、快速搜索識別算法以及進一步的語言模型的研究等課題[6]。此外,語音識別技術(shù)開始與其他領(lǐng)域相關(guān)技術(shù)進行結(jié)合,以提高識別的準(zhǔn)確率,便于實現(xiàn)語音識別技術(shù)的產(chǎn)品化。
2 語音識別基礎(chǔ)
2.1 語音識別概念
語音識別是將人類的聲音信號轉(zhuǎn)化為文字或者指令的過程[7]。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支。語音識別的研究涉及微機技術(shù)、人工智能、數(shù)字信號處理、模式識別、聲學(xué)、語言學(xué)和認(rèn)知科學(xué)等許多學(xué)科領(lǐng)域,是一個多學(xué)科綜合性研究領(lǐng)域[8]。
根據(jù)在不同限制條件下的研究任務(wù),產(chǎn)生了不同的研究領(lǐng)域。這些領(lǐng)域包括:根據(jù)對說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續(xù)語音識別系統(tǒng);根據(jù)對說話人的依賴程度,可分為特定人和非特定人語音識別系統(tǒng);根據(jù)詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統(tǒng)。
2.2 語音識別基本原理
從語音識別模型的角度講,主流的語音識別系統(tǒng)理論是建立在統(tǒng)計模式識別基礎(chǔ)之上的。語音識別的目標(biāo)是利用語音學(xué)與語言學(xué)信息,把輸入的語音特征向量序列[X=x1,x2,…,xT]轉(zhuǎn)化成詞序列[W=w1,w2,…,wN]并輸出。基于最大后驗概率的語音識別模型如下式所示:
[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]
上式表明,要尋找的最可能的詞序列[W],應(yīng)該使[P(X|W)]與[P(W)]的乘積達到最大。其中,[P(X|W)]是特征矢量序列[X]在給定[W]條件下的條件概率,由聲學(xué)模型決定。[P(W)]是[W]獨立于語音特征矢量的先驗概率,由語言模型決定。由于將概率取對數(shù)不影響[W]的選取,第四個等式成立。[logP(X|W)]與[logP(W)]分別表示聲學(xué)得分與語言得分,且分別通過聲學(xué)模型與語言模型計算得到。[λ]是平衡聲學(xué)模型與語言模型的權(quán)重。從語音識別系統(tǒng)構(gòu)成的角度講,一個完整的語音識別系統(tǒng)包括特征提取、聲學(xué)模型、語言模型、搜索算法等模塊。語音識別系統(tǒng)本質(zhì)上是一種多維模式識別系統(tǒng),對于不同的語音識別系統(tǒng),人們所采用的具體識別方法及技術(shù)不同,但其基本原理都是相同的,即將采集到的語音信號送到特征提取模塊處理,將所得到的語音特征參數(shù)送入模型庫模塊,由聲音模式匹配模塊根據(jù)模型庫對該段語音進行識別,最后得出識別結(jié)果[9]。
語音識別系統(tǒng)基本原理框圖如圖1所示,其中:預(yù)處理模塊濾除原始語音信號中的次要信息及背景噪音等,包括抗混疊濾波、預(yù)加重、模/數(shù)轉(zhuǎn)換、自動增益控制等處理過程,將語音信號數(shù)字化;特征提取模塊對語音的聲學(xué)參數(shù)進行分析后提取出語音特征參數(shù),形成特征矢量序列。語音識別系統(tǒng)常用的特征參數(shù)有短時平均幅度、短時平均能量、線性預(yù)測編碼系數(shù)、短時頻譜等。特征提取和選擇是構(gòu)建系統(tǒng)的關(guān)鍵,對識別效果極為重要。
圖1 語音識別基本原理框圖
由于語音信號本質(zhì)上屬于非平穩(wěn)信號,目前對語音信號的分析是建立在短時平穩(wěn)性假設(shè)之上的。在對語音信號作短時平穩(wěn)假設(shè)后,通過對語音信號進行加窗,實現(xiàn)短時語音片段上的特征提取。這些短時片段被稱為幀,以幀為單位的特征序列構(gòu)成語音識別系統(tǒng)的輸入。由于梅爾倒譜系數(shù)及感知線性預(yù)測系數(shù)能夠從人耳聽覺特性的角度準(zhǔn)確刻畫語音信號,已經(jīng)成為目前主流的語音特征。為補償幀間獨立性假設(shè),人們在使用梅爾倒譜系數(shù)及感知線性預(yù)測系數(shù)時,通常加上它們的一階、二階差分,以引入信號特征的動態(tài)特征。
聲學(xué)模型是語音識別系統(tǒng)中最為重要的部分之一。聲學(xué)建模涉及建模單元選取、模型狀態(tài)聚類、模型參數(shù)估計等很多方面。在目前的LVCSR系統(tǒng)中,普遍采用上下文相關(guān)的模型作為基本建模單元,以刻畫連續(xù)語音的協(xié)同發(fā)音現(xiàn)象。在考慮了語境的影響后,聲學(xué)模型的數(shù)量急劇增加,LVCSR系統(tǒng)通常采用狀態(tài)聚類的方法壓縮聲學(xué)參數(shù)的數(shù)量,以簡化模型的訓(xùn)練。在訓(xùn)練過程中,系統(tǒng)對若干次訓(xùn)練語音進行預(yù)處理,并通過特征提取得到特征矢量序列,然后由特征建模模塊建立訓(xùn)練語音的參考模式庫。
搜索是在指定的空間當(dāng)中,按照一定的優(yōu)化準(zhǔn)則,尋找最優(yōu)詞序列的過程。搜索的本質(zhì)是問題求解,廣泛應(yīng)用于語音識別、機器翻譯等人工智能和模式識別的各個領(lǐng)域。它通過利用已掌握的知識(聲學(xué)知識、語音學(xué)知識、詞典知識、語言模型知識等),在狀態(tài)(從高層至底層依次為詞、聲學(xué)模型、HMM狀態(tài))空間中找到最優(yōu)的狀態(tài)序列。最終的詞序列是對輸入的語音信號在一定準(zhǔn)則下的一個最優(yōu)描述。在識別階段,將輸入語音的特征矢量參數(shù)同訓(xùn)練得到的參考模板庫中的模式進行相似性度量比較,將相似度最高的模式所屬的類別作為識別中間候選結(jié)果輸出。為了提高識別的正確率,在后處理模塊中對上述得到的候選識別結(jié)果繼續(xù)處理,包括通過Lattice重打分融合更高元的語言模型、通過置信度度量得到識別結(jié)果的可靠程度等。最終通過增加約束,得到更可靠的識別結(jié)果。
2.3 聲學(xué)建模方法
常用的聲學(xué)建模方法包含以下三種:基于模式匹配的動態(tài)時間規(guī)整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經(jīng)網(wǎng)絡(luò)識別法(ANN)等。
DTW 是較早的一種模式匹配的方法。它基于動態(tài)規(guī)劃的思想,解決孤立詞語音識別中的語音信號特征參數(shù)序列比較時長度不一的模板匹配問題。在實際應(yīng)用中,DTW通過計算已預(yù)處理和分幀的語音信號與參考模板之間的相似度,再按照某種距離測度計算出模板間的相似度并選擇最佳路徑。
HMM是對語音信號的時間序列結(jié)構(gòu)所建立的統(tǒng)計模型,是在馬爾可夫鏈的基礎(chǔ)上發(fā)展起來的,它是一種基于參數(shù)模型的統(tǒng)計識別方法。HMM可模仿人的言語過程,可視作一個雙重隨機過程:一個是用具有有限狀態(tài)數(shù)的馬爾可夫鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程,另一個是與馬爾可夫鏈的每一個狀態(tài)相關(guān)聯(lián)的觀測序列的隨機過程[10]。
ANN以數(shù)學(xué)模型模擬神經(jīng)元活動,將人工神經(jīng)網(wǎng)絡(luò)中大量神經(jīng)元并行分布運算的原理、高效的學(xué)習(xí)算法以及對人的認(rèn)知系統(tǒng)的模仿能力充分運用到語音識別領(lǐng)域,并結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型的識別算法,克服了ANN在描述語音信號時間動態(tài)特性方面的缺點,進一步提高了語音識別的魯棒性和準(zhǔn)確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計音素或狀態(tài)的后驗概率。2011年,微軟以深度神經(jīng)網(wǎng)絡(luò)替代多層感知機形成的混合模型系統(tǒng)大大提高了語音識別的準(zhǔn)確率。
3 語音識別的應(yīng)用
語音識別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場前景。在語音輸入控制系統(tǒng)中,它使得人們可以甩掉鍵盤,通過識別語音中的要求、請求、命令或詢問來作出正確的響應(yīng),這樣既可以克服人工鍵盤輸入速度慢,極易出差錯的缺點,又有利于縮短系統(tǒng)的反應(yīng)時間,使人機交流變得簡便易行,比如用于聲控語音撥號系統(tǒng)、聲控智能玩具、智能家電等領(lǐng)域。在智能對話查詢系統(tǒng)中,人們通過語音命令,可以方便地從遠(yuǎn)端的數(shù)據(jù)庫系統(tǒng)中查詢與提取有關(guān)信息,享受自然、友好的數(shù)據(jù)庫檢索服務(wù),例如信息網(wǎng)絡(luò)查詢、醫(yī)療服務(wù)、銀行服務(wù)等。語音識別技術(shù)還可以應(yīng)用于自動口語翻譯,即通過將口語識別技術(shù)、機器翻譯技術(shù)、語音合成技術(shù)等相結(jié)合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實現(xiàn)跨語言交流[11]。
語音識別技術(shù)在軍事斗爭領(lǐng)域里也有著極為重要的應(yīng)用價值和極其廣闊的應(yīng)用空間。一些語音識別技術(shù)就是著眼于軍事活動而研發(fā),并在軍事領(lǐng)域首先應(yīng)用、首獲成效的,軍事應(yīng)用對語音識別系統(tǒng)的識別精度、響應(yīng)時間、惡劣環(huán)境下的頑健性都提出了更高的要求。目前,語音識別技術(shù)已在軍事指揮和控制自動化方面得以應(yīng)用。比如,將語音識別技術(shù)應(yīng)用于航空飛行控制,可快速提高作戰(zhàn)效率和減輕飛行員的工作負(fù)擔(dān),飛行員利用語音輸入來代替?zhèn)鹘y(tǒng)的手動操作和控制各種開關(guān)和設(shè)備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時間和精力集中于對攻擊目標(biāo)的判斷和完成其他操作上來,以便更快獲得信息來發(fā)揮戰(zhàn)術(shù)優(yōu)勢。
4 結(jié) 語
語音識別的研究工作對于信息化社會的發(fā)展,人們生活水平的提高等方面有著深遠(yuǎn)的意義。隨著計算機信息技術(shù)的不斷發(fā)展,語音識別技術(shù)將取得更多重大突破,語音識別系統(tǒng)的研究將會更加深入,有著更加廣闊的發(fā)展空間。
參考文獻
[1] 馬志欣,王宏,李鑫.語音識別技術(shù)綜述[J].昌吉學(xué)院學(xué)報,2006(3):93?97.
[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.
[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.
[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.
[5] 倪崇嘉,劉文舉,徐波.漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進展[J].中文信息學(xué)報,2009,23(1):112?123.
[6] 顧亞強.非特定人語音識別關(guān)鍵技術(shù)研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2009.
[7] 中華人民共和國國家質(zhì)量監(jiān)督檢驗檢疫總局.GB/T21023?2007 中文語音識別系統(tǒng)通用技術(shù)規(guī)范[S].北京:中國標(biāo)準(zhǔn)出版社,2007.
[8] 王文慧.基于ARM的嵌入式語音識別系統(tǒng)研究[D].天津:天津大學(xué),2008.
[9] 何湘智.語音識別的研究與發(fā)展[J].計算機與現(xiàn)代化,2002(3):3?6.
【關(guān)鍵詞】語音識別技術(shù);發(fā)展趨勢
語音識別是一門交叉學(xué)科。語音識別研究經(jīng)歷了50多年的研究歷程,經(jīng)過50多年的積累研究,獲得了巨大的進展。特別是近20年來,語音識別技術(shù)取得了顯著的進步,并逐步的走向市場。在未來的日子里,語音識別技術(shù)將應(yīng)用更為廣泛。
一、語音識別技術(shù)概述
語音識別是解決機器“聽懂”人類語言的一項技術(shù)。作為智能計算機研究的主導(dǎo)方向和人機語音通信的關(guān)鍵技術(shù),語音識別技術(shù)一直受到各國科學(xué)界的廣泛關(guān)注。如今,隨著語音識別技術(shù)研究的突破,其對計算機發(fā)展和社會生活的重要性日益凸現(xiàn)出來。以語音識別技術(shù)開發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,如聲控電話交換、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、醫(yī)療服務(wù)、銀行服務(wù)、工業(yè)控制、語音通信系統(tǒng)等,幾乎深入到社會的每個行業(yè)和每個方面。
廣泛意義上的語音識別按照任務(wù)的不同可以分為4個方向:說話人識別、關(guān)鍵詞檢出、語言辨識和語音識別。說話人識別技術(shù)是以話音對說話人進行區(qū)別,從而進行身份鑒別和認(rèn)證的技術(shù)。關(guān)鍵詞檢出技術(shù)應(yīng)用于一些具有特定要求的場合,只關(guān)注那些包含特定詞的句子,例如對一些特殊人名、地名的電話監(jiān)聽等。語言辨識技術(shù)是通過分析處理一個語音片斷以判別其所屬語言種類的技術(shù),本質(zhì)上也是語音識別技術(shù)的一個方面。語音識別就是通常人們所說的以說話的內(nèi)容作為識別對象的技術(shù),它是4個方面中最重要和研究最廣泛的一個方向,也是本文討論的主要內(nèi)容。
二、語音識別的研究歷史
語音識別的研究工作始于20世紀(jì)50年代,1952年Bell實驗室開發(fā)的Audry系統(tǒng)是第一個可以識別10個英文數(shù)字的語音識別系統(tǒng)。
1959年,Rorgie和Forge采用數(shù)字計算機識別英文元音和孤立詞,從此開始了計算機語音識別。
60年代,蘇聯(lián)的Matin等提出了語音結(jié)束點的端點檢測,使語音識別水平明顯上升;Vintsyuk提出了動態(tài)編程,這一提法在以后的識別中不可或缺。60年代末、70年代初的重要成果是提出了信號線性預(yù)測編碼(LPC)技術(shù)和動態(tài)時間規(guī)整(DTW)技術(shù),有效地解決了語音信號的特征提取和不等長語音匹配問題;同時提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
80年代語音識別研究進一步走向深入:HMM模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音識別中成功應(yīng)用。1988年,F(xiàn)ULEE Kai等用VQ/I-IMM方法實現(xiàn)了997個詞匯的非特定人連續(xù)語音識別系統(tǒng)SPHINX。這是世界上第1個高性能的非特定人、大詞匯量、連續(xù)語音識別系統(tǒng)。
進入90年代后,語音識別技術(shù)進一步成熟,并開始向市場提品。許多發(fā)達國家如美國、日本、韓國以及IBM、Apple、AT&;T、Microsoft等公司都為語音識別系統(tǒng)的實用化開發(fā)研究投以巨資。同時漢語語音識別也越來越受到重視。IBM開發(fā)的ViaVoice和Microsoft開發(fā)的中文識別引擎都具有了相當(dāng)高的漢語語音識別水平。
進入21世紀(jì),隨著消費類電子產(chǎn)品的普及,嵌入式語音處理技術(shù)發(fā)展迅速[2]?;谡Z音識別芯片的嵌入式產(chǎn)品也越來越多,如Sensory公司的RSC系列語音識別芯片、Infineon公司的Unispeech和Unilite語音芯片等,這些芯片在嵌入式硬件開發(fā)中得到了廣泛的應(yīng)用。在軟件上,目前比較成功的語音識別軟件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及開源軟件HTK,這些軟件都是面向非特定人、大詞匯量的連續(xù)語音識別系統(tǒng)。
三、語音識別技術(shù)的發(fā)展現(xiàn)狀
語音識別技術(shù)通過全球科學(xué)家的共同努力,經(jīng)歷半個多世紀(jì)的研究,目前已經(jīng)發(fā)展到了接近實用的階段。在實驗室環(huán)境下,大詞匯量的朗讀式連續(xù)說話的寬帶語音信號的平均識別率可以達到90%以上。正式有了如此高的識別率之后,語音識別技術(shù)慢慢地從實驗室演示系統(tǒng)逐步走向?qū)嵱没唐贰R訧BM Via Voice和Dragon Dictation為代表的兩個聽寫機系統(tǒng)的出現(xiàn),使“語音識別”逐步進入大眾視線,引起了廣泛的社會關(guān)注。
由于校對和更正識別的錯誤很麻煩和浪費時間,這樣便降低語音識別的優(yōu)勢。同時,由于使用的環(huán)境或講話口音習(xí)慣等因素的影響,語音識別的內(nèi)容大大降低,識別的內(nèi)容不能達到100%的正確,所以很多人認(rèn)為目前的語音識別系統(tǒng)還無法滿足實用要求。
目前,AT&T和MIT等將語音識別技術(shù)應(yīng)用在一些有限詞匯的特定任務(wù)上,如電話自動轉(zhuǎn)接、電話查詢、數(shù)字串識別的任務(wù)中,當(dāng)講話的內(nèi)容是系統(tǒng)所存儲的內(nèi)容存在的,且使用環(huán)境的聲學(xué)特性與訓(xùn)練數(shù)據(jù)的聲學(xué)特性相差不太大時,語音識別的正確識別率可以接近100%。但是,在實際使用中如果這些條件被破壞,則會對識別系統(tǒng)造成一定的影響。
我國的語音識別研究一直緊跟國際水平,國家也很重視。國內(nèi)中科院的自動化所、聲學(xué)所以及清華大學(xué)等科研機構(gòu)和高校都在從事語音識別領(lǐng)域的研究和開發(fā)。國家863智能計算機專家組為語音識別技術(shù)研究專門立項,并取得了高水平的科研成果。我國中科院自動化所研制的非特定人、連續(xù)語音聽寫系統(tǒng)和漢語語音人機對話系統(tǒng),其準(zhǔn)確率和系統(tǒng)響應(yīng)率均可達90%以上。
四、語音識別技術(shù)發(fā)展趨勢
語音作為當(dāng)前通信系統(tǒng)中最自然的通信媒介,語音識別技術(shù)是非常重要的人機交互技術(shù)。隨著計算機和語音處理技術(shù)的發(fā)展,語音識別系統(tǒng)的實用性將進一步提高。應(yīng)用語音的自動理解和翻譯,可消除人類相互交往的語言障礙。國外已有多種基于語音識別產(chǎn)品的應(yīng)用,如聲控?fù)芴栯娫?、語音記事本等,基于特定任務(wù)和環(huán)境的聽寫機也已經(jīng)進入應(yīng)用階段。這預(yù)示著語音識別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場前景。隨著語音技術(shù)的進步和通信技術(shù)的飛速發(fā)展,語音識別技術(shù)將為網(wǎng)上會議、商業(yè)管理、醫(yī)藥衛(wèi)生、教育培訓(xùn)等各個領(lǐng)域帶來極大的便利,其應(yīng)用和經(jīng)濟、社會效益前景非常良好.
雖然語音識別在過去的20年里有了很大的發(fā)展,但是,仍然存在很多的不足,有待于進一步的探索,具體可分為以下幾個方面:
1.提高可靠性。語音識別技術(shù)需要能排除各種聲學(xué)環(huán)境因素的影響。在比較嘈雜的公共環(huán)境中,人的意識會有意識的排除非需要的聲學(xué)環(huán)境因素,這對語音識別系統(tǒng)而言,是很難做到的。另外,在日常生活中,人類的語言常常具有較大的不確定性,比較隨意,并帶有明顯的言語習(xí)慣。這同樣會給語音識別系統(tǒng)很大的識別麻煩。目前,在提高語音系統(tǒng)在不同環(huán)境中的可靠性,同時要應(yīng)用現(xiàn)代技術(shù)讓語音識別系統(tǒng)更加智能化,掌握人們語言隨意性的部分規(guī)律,以達到最佳的識別效果。
2.增加詞匯量。系統(tǒng)可以識別的詞匯的數(shù)量是系統(tǒng)能夠做什么事情的一個重要度量。一個語音識別系統(tǒng)使用的聲學(xué)模型和語音模型如果太過于局限,當(dāng)用戶所講的詞匯超出系統(tǒng)已知的范圍時,則語音識別系統(tǒng)不能準(zhǔn)確的識別出相應(yīng)的內(nèi)容,比如,當(dāng)突然從中文轉(zhuǎn)為英文、法文、俄文時,計算機就會常常輸出混亂奇怪的結(jié)果。但是,隨著系統(tǒng)建模方法的不斷改進、搜索算法效率的提高以及硬件資源的發(fā)展,未來的語音識別系統(tǒng)可能會做到詞匯量無限制和多種語言混合,這樣用戶在使用的時候可以不必在語種之間來回切換,這樣就能大大減少詞匯量的對語音識別系統(tǒng)的限制。
3.應(yīng)用拓展。語音識別技術(shù)可以用于把費腦、費力、費時的機器操作變成一件很容易很有趣味性的事,比如,當(dāng)人們出現(xiàn)手忙、手不能及以及分身無術(shù)的場景時,通過語音識別系統(tǒng)的模型構(gòu)造,則能夠在象駕駛室、危險的工業(yè)場合、遠(yuǎn)距離信息獲取、家電控制等各個方面,語音識別技術(shù)可能帶動一系列嶄新或更便捷功能的設(shè)備出現(xiàn),更加方便人的工作和生活。其應(yīng)用的范圍和前景非常廣泛。不僅能夠應(yīng)用于日常生活,更重要的會帶來生產(chǎn)方式的革命,是下一代智能化控制的基礎(chǔ)。