時間:2022-09-09 00:00:09
序論:在您撰寫語音識別系統(tǒng)時,參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。
【關(guān)鍵詞】語音識別 模式識別 過程 統(tǒng)功能
1、語音識別技術(shù)原理簡介
1.1語音識別技術(shù)的概念
語音識別技術(shù)(Auto Speech Recognize,簡稱ASR)所要解決的問題是讓計算機(jī)能夠“聽懂”人類的語音,將語音中包含的文字信息“提取”出來。ASR技術(shù)在“能聽會說”的智能計算機(jī)系統(tǒng)中扮演著重要角色,相當(dāng)于給計算機(jī)系統(tǒng)安裝上“耳朵”,使其具備“能聽”的功能,進(jìn)而實現(xiàn)信息時代利用“語音”這一最自然、最便捷的手段進(jìn)行人機(jī)通信和交互。
1.2語音識別的系統(tǒng)組成
語音識別系統(tǒng)構(gòu)建過程整體上包括兩大部分:訓(xùn)練和識別。
1.2.1訓(xùn)練
訓(xùn)練通常是離線完成的,對預(yù)先收集好的海量語音、語言數(shù)據(jù)庫進(jìn)行信號處理和知識挖掘,獲取語音識別系統(tǒng)所需要的“聲學(xué)模型”和“語言模型”。
1.2.2識別
識別過程通常是在線完成的,對用戶實時的語音進(jìn)行自動識別,可以分為“前端”和“后端”兩大模塊:“前端”模塊主要的作用是進(jìn)行端點檢測(去除多余的靜音和非說話聲)、降噪、特征提取等;“后端”模塊的作用是利用訓(xùn)練好的“聲學(xué)模型”和“語言模型”對用戶說話的特征向量進(jìn)行統(tǒng)計模式識別(又稱“解碼”),得到其包含的文字信息,此外,后端模塊還存在一個“自適應(yīng)”的反饋模塊,可以對用戶的語音進(jìn)行自學(xué)習(xí),從而對“聲學(xué)模型”和“語音模型”進(jìn)行必要的“校正”,進(jìn)一步提高識別的準(zhǔn)確率。
語音識別技術(shù)所面臨的問題是非常艱巨和困難的。盡管早在二十世紀(jì)五十年代,世界各國就開始了對這項技術(shù)孜孜不倦的研究,特別是最近二十年,國內(nèi)外非常多的研究機(jī)構(gòu)和企業(yè)都加入到語音識別技術(shù)的研究領(lǐng)域,投入了極大的努力,也取得了豐碩的成果,但是直到今天,距離該技術(shù)得到完美解決還存在著巨大的差距,不過這并不妨礙不斷進(jìn)步的語音識別系統(tǒng)在許多相對受限的場合下獲得成功的應(yīng)用。
如今,語音識別技術(shù)已經(jīng)發(fā)展成為涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、統(tǒng)計模式識別等多學(xué)科技術(shù)的一項綜合性技術(shù)?;谡Z音識別技術(shù)研發(fā)的現(xiàn)代語音識別系統(tǒng)在很多場景下獲得了成功的應(yīng)用,不同任務(wù)條件下所采用的技術(shù)又會有所不同。
2、語音識別系統(tǒng)技術(shù)實現(xiàn)
語音識別系統(tǒng)選擇識別基元的要求是:有準(zhǔn)確的定義,能得到足夠數(shù)據(jù)進(jìn)行訓(xùn)練,具有一般性。系統(tǒng)所需的訓(xùn)練數(shù)據(jù)大小與模型復(fù)雜度有關(guān),模型設(shè)計得過于復(fù)雜以至于超出了所提供的訓(xùn)練數(shù)據(jù)的能力,會造成系統(tǒng)性能的急劇下降。
2.1聽寫機(jī)
2.1.1概念
大詞匯量、非特定人、連續(xù)語音識別系統(tǒng)通常稱為聽寫機(jī)。
2.1.2基本架構(gòu)
聽寫機(jī)是建立在前述聲學(xué)模型和語言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu),訓(xùn)練時對每個基元用前向后向算法獲得模型參數(shù),識別時將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉(zhuǎn)移概率,形成循環(huán)結(jié)構(gòu),用Viterbi算法進(jìn)行解碼。針對漢語易于分割的特點,先進(jìn)行分割再對每一段進(jìn)行解碼,是用以提高效率的一個簡化方法。
2.1.3對話系統(tǒng)
用于實現(xiàn)人機(jī)口語對話的系統(tǒng)稱為對話系統(tǒng)。目前,受技術(shù)所限,對話系統(tǒng)往往是面向一個狹窄領(lǐng)域、詞匯量有限的系統(tǒng),其題材有旅游查詢、訂票、數(shù)據(jù)庫檢索等等。它的前端是一個語音識別器,識別產(chǎn)生的N-best候選或詞候選網(wǎng)格,由語法分析器進(jìn)行分析獲取語義信息,再由對話管理器確定應(yīng)答信息,由語音合成器輸出?;谀壳暗南到y(tǒng)往往詞匯量有限的情況,也可以用提取關(guān)鍵詞的方法來獲取語義信息。
3、語音識別系統(tǒng)特性
語音識別系統(tǒng)的性能受許多因素的影響,包括不同的說話人、說話方式、環(huán)境噪音、傳輸信道等等。具有自適應(yīng)性與魯棒性。解決辦法可大致分為兩類:針對語音特征的方法(以下稱特征方法)和模型調(diào)整的方法(以下稱模型方法)。前者需要尋找更好的、高魯棒性的特征參數(shù),或是在現(xiàn)有的特征參數(shù)基礎(chǔ)上,加入一些特定的處理方法。后者是利用少量的自適應(yīng)語料來修正或變換原有的說話人無關(guān)(SI)模型,從而使其成為說話人自適應(yīng)(SA)模型。
4、語音識別的應(yīng)用
語音識別專用芯片的應(yīng)用領(lǐng)域,主要包括以下幾個方面:
4.1電話通信的語音撥號。特別是在中、高檔移動電話上,現(xiàn)已普遍的具有語音撥號的功能。隨著語音識別芯片的價格降低,普通電話上也將具備語音撥號的功能。
4.2汽車的語音控制。由于在汽車的行駛過程中,駕駛員的手必須放在方向盤上,因此在汽車上撥打電話,需要使用具有語音撥號功能的免提電話通信方式。此外,對汽車的衛(wèi)星導(dǎo)航定位系統(tǒng)(GPS)的操作,汽車空調(diào)、照明以及音響等設(shè)備的操作,同樣也可以由語音來方便的控制。
4.3工業(yè)控制及醫(yī)療領(lǐng)域。當(dāng)操作人員的眼或手已經(jīng)被占用的情況下,在增加控制操作時,最好的辦法就是增加人與機(jī)器的語音交互界面。由語音對機(jī)器發(fā)出命令,機(jī)器用語音做出應(yīng)答。
4.4個人數(shù)字助理(Personal Digital Assistant,PDA)的語音交互界面。PDA的體積很小,人機(jī)界面一直是其應(yīng)用和技術(shù)的瓶頸之一。由于在PDA上使用鍵盤非常不便,因此,現(xiàn)多采用手寫體識別的方法輸入和查詢信息。但是,這種方法仍然讓用戶感到很不方便。現(xiàn)在業(yè)界一致認(rèn)為,PDA的最佳人機(jī)交互界面是以語音作為傳輸介質(zhì)的交互方法,并且已有少量應(yīng)用。隨著語音識別技術(shù)的提高,可以預(yù)見,在不久的將來,語音將成為PDA主要的人機(jī)交互界面。
4.5智能玩具。通過語音識別技術(shù),我們可以與智能娃娃對話,可以用語音對玩具發(fā)出命令,讓其完成一些簡單的任務(wù),甚至可以制造具有語音鎖功能的電子看門狗。智能玩具有很大的市場潛力,而其關(guān)鍵在于降低語音芯片的價格。
4.6家電遙控。用語音可以控制電視機(jī)、VCD、空調(diào)、電扇、窗簾的操作,而且一個遙控器就可以把家中的電器皆用語音控起來,這樣,可以讓令人頭疼的各種電器的操作變得簡單易行。
參考文獻(xiàn):
1語音識別系統(tǒng)設(shè)計的技術(shù)依據(jù)
近年來國內(nèi)教育信息化趨勢更加明顯,英語教學(xué)活動建立信息化平臺是師生所需,改變了早期英語課堂模式的不足之處。語音識別是計算機(jī)翻譯軟件不可缺少的一部分,如圖1,主要針對不同語言進(jìn)行識別處理,幫助學(xué)生快速地理解英語知識內(nèi)涵。語音識別技術(shù)主要包括:特征提取技術(shù)、模式匹配技術(shù)、模型訓(xùn)練技術(shù)等三大技術(shù),也是系統(tǒng)設(shè)計需考慮的重點。
1)特征提取技術(shù)。一般來說,語音識別系統(tǒng)輔助功能涉及到收錄、處理、傳遞等三個環(huán)節(jié),這也是語音識別系統(tǒng)設(shè)計的關(guān)鍵所在。計算機(jī)語言與自然語言之間存在極大的差異性,如何準(zhǔn)確識別兩種語言的差異性,這是翻譯軟件識別時必須解決的問題。特征提取技術(shù)是語音識別系統(tǒng)的基本構(gòu)成,主要負(fù)責(zé)對英語語言特征進(jìn)行提取,向翻譯器及時提供準(zhǔn)確的語言信號,提高計算機(jī)翻譯工作的準(zhǔn)確系數(shù)。
2)模式匹配技術(shù)。語音識別系統(tǒng)要匹配對應(yīng)的功能模塊,以輔助師生在短時間內(nèi)翻譯出語言含義,避免人工翻譯語言失誤帶來的不便。模式匹配技術(shù)采用智能識別器,由翻譯器錄入語音之后自主化識別、分析,減小了人工翻譯語句的難度。例如,計算機(jī)軟件建立匹配模型,按照英語字、詞、句等結(jié)構(gòu)形式,自動選擇相配套的翻譯模式,執(zhí)行程序命令即可獲得最終的語言結(jié)果,給予學(xué)生語音識別方面的幫助。
3)模型訓(xùn)練技術(shù)。設(shè)計語音識別系統(tǒng)是為了實現(xiàn)教育信息化,幫助教師解決英語課堂教學(xué)中遇到的翻譯難題,加深學(xué)生們對英語知識的理解能力。語音識別結(jié)束之后,翻譯器會自動執(zhí)行模擬訓(xùn)練操作,為學(xué)生創(chuàng)建虛擬化的語音訓(xùn)練平臺,這也是軟件識別系統(tǒng)比較實用的功能。模擬訓(xùn)練技術(shù)采用人機(jī)一體化設(shè)計思想,把翻譯器、語音識別器等組合起來執(zhí)行訓(xùn)練方式,快速地識別、判斷英語發(fā)聲水平,指導(dǎo)學(xué)生調(diào)整語音方式。
2英語翻譯器語音識別系統(tǒng)設(shè)計及應(yīng)用
英語翻譯器是現(xiàn)代化教學(xué)必備的操作工具,教師與學(xué)生借助翻譯器功能可準(zhǔn)確地理解英語含義,這對語音識別系統(tǒng)設(shè)計提出了更多要求。筆者認(rèn)為,設(shè)計語音識別系統(tǒng)要考慮翻譯器具體的工作流程,事先編排一套符合翻譯軟件工作的方案,如圖2,從而提高人機(jī)語言轉(zhuǎn)換速率。語音識別系統(tǒng)設(shè)計及應(yīng)用情況:
1)識別模塊。語音識別方法主要是模式匹配法,根據(jù)不同翻譯要求進(jìn)行匹配處理,實現(xiàn)英語翻譯的精準(zhǔn)性。一是在訓(xùn)練階段,用戶將詞匯表中的每一詞依次說一遍,并且將其特征矢量作為模板存入模板庫;二是在識別階段,將輸入語音的特征矢量依次與模板庫中的每個模板進(jìn)行相似度比較,將相似度最高者作為識別結(jié)果輸出。
2)前端模塊。前端處理是指在特征提取之前,先對原始語音進(jìn)行處理,這是預(yù)處理操作的主要作用。語音識別系統(tǒng)常受到外界干擾而降低了翻譯的準(zhǔn)確性,設(shè)計前段處理模塊可消除部分噪聲和不同說話人帶來的影響,使處理后的信號更能反映語音的本質(zhì)特征。例如,比較常用的前端處理有端點檢測和語音增強(qiáng)。
3)聲學(xué)模塊。語音識別系統(tǒng)的模型通常由聲學(xué)模型和語言模型兩部分組成,分別對應(yīng)于語音到音節(jié)概率的計算和音節(jié)到字概率的計算。聲學(xué)特征的提取與選擇是語音識別的一個重要環(huán)節(jié),這一步驟直接關(guān)系到翻譯器的工作效能,對英語語音識別與學(xué)習(xí)有很大的影響。因此,聲學(xué)模塊要注重人性化設(shè)計,語音設(shè)定盡可能符合自然語言特點。
4)搜索模塊。英語語音識別中的搜索,就是尋找一個詞模型序列以描述輸入語音信號,從而得到詞解碼序列。本次所設(shè)計的搜索模塊中,其前端是一個語音識別器,識別產(chǎn)生的N-best候選或詞候選網(wǎng)格,由語法分析器進(jìn)行分析獲取語義信息,再由對話管理器確定應(yīng)答信息,由語音合成器輸出。由于目前的系統(tǒng)往往詞匯量有限,也可以用提取關(guān)鍵詞的方法來獲取語義信息。
5)執(zhí)行模塊。實際應(yīng)用中,語言識別系統(tǒng)憑借執(zhí)行模塊完成操作,對英語語言識別方式進(jìn)行優(yōu)化擇取,以最佳狀態(tài)完成英語翻譯工作。目前,就英語教學(xué)中使用情況,聽寫及、對話系統(tǒng)等是語音識別執(zhí)行的兩種方式,充分展現(xiàn)了翻譯器在語言轉(zhuǎn)換方面的應(yīng)用功能。(1)聽寫機(jī)。大詞匯量、非特定人、連續(xù)語音識別系統(tǒng)通常稱為聽寫機(jī)。其架構(gòu)就是建立在前述聲學(xué)模型和語言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu)。訓(xùn)練時對每個基元用前向后向算法獲得模型參數(shù),識別時,將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉(zhuǎn)移概率,形成循環(huán)結(jié)構(gòu),用Viterbi算法進(jìn)行解碼。(2)對話系統(tǒng)。用于實現(xiàn)人機(jī)口語對話的系統(tǒng)稱為對話系統(tǒng),英語翻譯器中完成了人機(jī)對話、語言轉(zhuǎn)換等工作,全面提升了翻譯器操控的性能系數(shù)。受目前技術(shù)所限,對話系統(tǒng)往往是面向一個狹窄領(lǐng)域、詞匯量有限的系統(tǒng),其題材有旅游查詢、訂票、數(shù)據(jù)庫檢索等,隨著語音數(shù)據(jù)庫資源的優(yōu)化配置,對話系統(tǒng)功能將全面升級。
3翻譯器使用注意事項
語音識別系統(tǒng)就是讓機(jī)器通過識別和理解過程,把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高科技。隨著高校教學(xué)信息化建設(shè)時期到來,計算機(jī)軟件輔助教學(xué)活動是一種先進(jìn)的模式,徹底改變了傳統(tǒng)人工教學(xué)模式的不足。翻譯軟件采用數(shù)字化元器件為硬件平臺,配合遠(yuǎn)程互聯(lián)網(wǎng)建立多元化傳輸路徑,滿足了英語翻譯數(shù)據(jù)處理與傳輸?shù)膽?yīng)用要求。但是,未來英語教學(xué)內(nèi)容越來越復(fù)雜,翻譯器語音識別系統(tǒng)承載的數(shù)據(jù)范圍更廣,學(xué)校必須實施更新翻譯軟件產(chǎn)品,才能進(jìn)一步提升英語智能化翻譯水平。
4結(jié)論
【關(guān)鍵詞】語音識別信號處理DTW
一、引言
根據(jù)語音識別系統(tǒng)所使用的環(huán)境和平臺不同,語音識別技術(shù)朝著兩個方向發(fā)展:一個方向是大詞匯量的連續(xù)語音識別,該方向所處理的語音較為復(fù)雜;另一個方向就是向著中小詞匯量的孤立詞匯語音識別,該方向所處理的語音相對較為簡單,應(yīng)用范圍也有一定的限制,如玩具、語音導(dǎo)航等。雖然簡單語音識別系統(tǒng)對于能識別的詞匯量沒有太高的要求,但是目前的一些簡單語音識別系統(tǒng)的識別速度慢、識別率較低,導(dǎo)致用戶體驗較差。
二、語音識別系統(tǒng)原理
語音識別在本質(zhì)上屬于模式識別的范疇,其系統(tǒng)結(jié)構(gòu)與模式識別具有相似之處:根據(jù)相關(guān)的識別算法對語音信號進(jìn)行特征參數(shù)的提取,然后先進(jìn)行學(xué)習(xí)后再對語音信號進(jìn)行識別。在學(xué)習(xí)階段,通過給出的訓(xùn)練數(shù)據(jù)建立起參考模板庫;在識別階段,將待識別語音信號的特征參數(shù)與參考模板庫中的參數(shù)進(jìn)行對比,得到與待識別語音信號最接近的模板,輸出該模板作為語音識別的結(jié)果。
三、簡單語音識別系統(tǒng)的改進(jìn)與實現(xiàn)
DTW在簡單語音識別中已經(jīng)可以達(dá)到較高的識別率,因此本文選擇DTW作為語音識別的模式匹配算法,并對端點檢測進(jìn)行一定的改進(jìn)來實現(xiàn)語音識別系統(tǒng)的設(shè)計。
3.1端點檢測的改進(jìn)
在進(jìn)行端點檢測前,為短時平均能量和短時過零率設(shè)定兩個門限值。在靜音段,當(dāng)短時平均能量或短時過零率大于低門限值,則開始準(zhǔn)備標(biāo)記語音起點,由此進(jìn)入過渡段。但是在過渡段中并不能確定是否真正進(jìn)入語音段,當(dāng)短時平均能量和短時過零率都小于低門限值時認(rèn)為是噪音,并不記錄語音起點,恢復(fù)為靜音段;當(dāng)短時平均能量或短時過零率大于高門限值,則認(rèn)為是真正的語音片段,將狀態(tài)進(jìn)入語音段。進(jìn)入語音段后還要記錄語音段持續(xù)時間,若該段時間較短則認(rèn)為是噪聲,繼續(xù)檢測后面的語音,如果滿足一定的時間長度則標(biāo)記語音起點并將其記錄為一段語音。
3.2DTW的改進(jìn)
DTW的核心思想是進(jìn)行動態(tài)規(guī)劃,從而解決了語音識別中的發(fā)音長度不一致的匹配問題。在進(jìn)行DTW時,通過動態(tài)匹配找到一個最佳路徑,把語音信號的特征參數(shù)通過這條最佳路徑映射到參考模板庫中,這條最佳路徑要求語音信號和參考模板之間的累積距離最小。
經(jīng)典的DTW算法規(guī)定待識別語音信號和模板中信號的首尾必須完全一致,但是端點檢測確定的首尾與實際存在一定的誤差,造成識別率有所下降。為此,可以對DTW的端點的限制適當(dāng)放寬。即允許起點在(0,0)、(0,m)或者(n,0)上,終點在(N,M)、(N,J)或者(I,M)上。端點要求放寬后對端點檢測精度的要求就降低了,提高了識別的速度和精度。
雖然語音的速度不同,但是語序是確定不變的,因此路徑中每一點的斜率必然大于0。而為了防止過度搜素浪費資源,可以對搜索路徑的斜率加以限制,由于語音信號的擴(kuò)壓是有限的,因此可以舍去那些向X軸或者Y軸過度傾斜的路徑。具體做法是:將搜索路徑中每個點的最大斜率設(shè)為2,最小斜率設(shè)為0.5,這樣就可以大大降低搜索范圍,減少了計算量,提高了識別速度。
另外,還可以在進(jìn)行相似度匹配時設(shè)定一個合理的閾值,如果計算出的某一部分的相似度與該閾值相差太遠(yuǎn),則立即認(rèn)為待識別語音與當(dāng)前模板不匹配,轉(zhuǎn)而進(jìn)入與下一個模板的相似度計算,這樣就可以減少大量的計算量,從而提高簡單語音識別的速度。
3.3實驗及數(shù)據(jù)
在實驗室較安靜的環(huán)境下對男女聲識別進(jìn)行了測試。發(fā)音內(nèi)容為0~9的數(shù)字,采樣率為24KHz,幀長20ms,幀移10ms,識別正確率達(dá)到了95%以上,原DTW算法的孤立字識別時間是6~7s,而采用本文改進(jìn)算法的識別時間減少到2~5s。因此,本文方法可以實現(xiàn)快速準(zhǔn)確的簡單語音識別。
四、結(jié)束語
采用本文方法可以有效提高端點檢測的精度、語音識別的正確率和識別速度,該方法完全滿足簡單語音識別系統(tǒng)的應(yīng)用。
參考文獻(xiàn)
[1]張振鋒.基于小詞匯量孤立詞語音識別系統(tǒng)的研究與設(shè)計[D].長安大學(xué),2007.
【關(guān)鍵詞】隱馬爾可夫;語音識別;單片機(jī)
在這個高科技的信息時代,計算機(jī)占著極為重要的地位,人機(jī)通信是人與機(jī)器之間進(jìn)行信息通訊,使機(jī)器按照人的意愿工作,傳統(tǒng)的人機(jī)通信是通過鍵盤、按鈕以及顯示器等機(jī)器設(shè)備實現(xiàn)的,在許多場合都不是很方便,其最理想的通信方式就是通過語音進(jìn)行識別。實現(xiàn)人與機(jī)器通過自然語音的方式進(jìn)行信息通訊,不僅可以簡化日常工作,更可以提高工作效率,帶給人們極大的方便。而實現(xiàn)這個理想最關(guān)鍵的部分就是語音識別技術(shù)。
1語音識別概述
1.1語音信號的產(chǎn)生
物體的振動產(chǎn)生聲音,正在發(fā)聲的物體叫做聲源,聲音在介質(zhì)中以聲波的形式傳播。語音是指人的發(fā)聲器官振動所發(fā)出的負(fù)載一定語言意義的聲音,發(fā)音器官主要有肺部、氣管、喉部、咽、鼻腔、口腔和上下唇,每個人的聲道各不相同,從而各自發(fā)出的聲音也不相同。
語音信號主要有模擬信號和數(shù)字信號兩種表現(xiàn)形式。模擬信號是人直接通過耳朵聽到的信號,是時間和幅值均連續(xù)的物理量,由于其數(shù)據(jù)量過大、有較多的隨機(jī)因素等原因不能直接被作為計算機(jī)的識別信號。數(shù)字信號是時間和數(shù)值均離散的二進(jìn)制數(shù)字量化的模擬信號,是計算機(jī)語音識別技術(shù)的基礎(chǔ)。數(shù)字信號相比模擬信號有以下優(yōu)點:可以實現(xiàn)很多復(fù)雜的信號處理工作;具有可靠性高、價格低廉、反應(yīng)迅速等特點;有利于區(qū)分出干擾信號等。所以要想使計算機(jī)按照人類的自然語言要求工作,關(guān)鍵的就是將模擬信號轉(zhuǎn)換為數(shù)字信號。
1.2語音信號的處理
根據(jù)討論,若要對語音信號進(jìn)行處理必須先對此信號進(jìn)行預(yù)處理,即將模擬信號轉(zhuǎn)換為數(shù)字信號,再整理、分析、理解轉(zhuǎn)換后的數(shù)字信號,并過濾掉多余的信息。主要包括數(shù)字化、預(yù)加重和加窗分幀三部分。
數(shù)字化就是把語音模擬信號轉(zhuǎn)換為數(shù)字信號的采樣與量化過程,采樣是在相同間隔的時間內(nèi)抽取信號而得到離散的序列,并將其轉(zhuǎn)換為數(shù)字。量化則是在有限的區(qū)域內(nèi)分布采樣后的信號。預(yù)加重是通過一個高通濾波器使頻譜變得平坦,防止衰減作用,不受有限字長效應(yīng)的影響。以“幀”為單位對語音信號進(jìn)行截取,使信號有短時平穩(wěn)的特征,加窗則可以讓截取的信號波形更加平滑。
1.3語音信號的模塊處理
在語音識別中,常使用的基本算法有:動態(tài)時間規(guī)整技術(shù)(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò)(ANN)。
1)隱馬爾可夫模型
隱馬爾可夫模型(HMM)在當(dāng)前語音識別系統(tǒng)中占據(jù)主流地位。它是一種隨機(jī)概率模型,其使用大大降低了模型的復(fù)雜度。早在20世紀(jì)六七十年代就開始研究的統(tǒng)計信號模型。HMM是在Markov鏈的基礎(chǔ)上發(fā)展起來的,但實際問題要更為復(fù)雜,所觀察到的事件與一組概率分布相關(guān)。它是一個雙重隨機(jī)過程,一個是Markov鏈,這是基本隨機(jī)過程,它描述狀態(tài)的轉(zhuǎn)移;一個是隨機(jī)過程描述狀態(tài)和觀測值之間的統(tǒng)計對應(yīng)關(guān)系,觀察者不能直接看到狀態(tài),而是由感覺感知到的,因此稱之為“隱”Markov模型,即HMM。
2)人工神經(jīng)網(wǎng)絡(luò)法
ANN現(xiàn)在已經(jīng)成為了另一個熱點,是非線性系統(tǒng),具有DTW和HMM沒有的對比、概括、推理能力。
3)動態(tài)時間規(guī)整技術(shù)
DTW是模板訓(xùn)練和模式匹配中出現(xiàn)最早的技術(shù),使用動態(tài)規(guī)劃技術(shù)在孤立詞語音識別中具有良好的成果,但是其計算量較大,很難被使用到現(xiàn)實中的語音識別。目前已經(jīng)被其他的算法所替代。
2語音識別系統(tǒng)設(shè)計思路
語音識別技術(shù)正在不斷的發(fā)展中,在硬件平臺上實現(xiàn)語音識別以取代繁瑣的工作成為其發(fā)展的必然趨勢。本文就是對基于單片機(jī)的語音識別系統(tǒng)的研究。由于單片機(jī)本身存在著處理速度慢、存儲能力不強(qiáng)大的缺陷,所以此次設(shè)計是基于孤立詞的語音識別系統(tǒng)。
語音識別系統(tǒng)的模型庫訓(xùn)練工作原理是:特定人的語音信號進(jìn)入系統(tǒng),系統(tǒng)對進(jìn)入的語音信號濾波,目的是為了消除需要的語音頻率之外的其他雜音,進(jìn)而數(shù)模轉(zhuǎn)換,將輸入的語音模擬信號數(shù)字化,有利于計算機(jī)進(jìn)行識別。數(shù)字化后的語音信號再通過預(yù)處理、加窗分幀。對于剩下的語音信號送入HMM模板與模板庫進(jìn)行訓(xùn)練和匹配,再將最佳的結(jié)果傳輸給用戶。
3系統(tǒng)模塊設(shè)計及系統(tǒng)測試
此次設(shè)計是基于單片機(jī)的語音識別系統(tǒng)研究,有以下幾點要求:該系統(tǒng)必須使完整的語音識別系統(tǒng),有簡單的顯示功能,提高系統(tǒng)的識別性能,體積盡量減小。
工作原理首先采集語音信號,輸入完成后通過濾波采集需要的語音信號,再通過數(shù)模轉(zhuǎn)換器進(jìn)入控制器,再與標(biāo)準(zhǔn)語音庫中的語音信號進(jìn)行對比,找出最接近該段信號的語音,再將識別出的語音通過LCD顯示模塊顯示給用戶。
系統(tǒng)檢測首先確認(rèn)是否有按鍵按下,當(dāng)檢測到有按鍵按下時,表示系統(tǒng)開始運(yùn)行,如果沒有按下,則表示系統(tǒng)處于非工作狀態(tài),只有當(dāng)有按鍵時,才可以工作。進(jìn)而開始接收語音信號,首先對語音信號進(jìn)行濾波消除雜音,然后通過數(shù)模轉(zhuǎn)換電路,將模擬信號轉(zhuǎn)換為數(shù)字信號,預(yù)處理、端點檢測后,與事先存儲好的信號進(jìn)行比對,得到最后的識別結(jié)果,將識別出來的結(jié)果,送往LCD液晶顯示器上顯示出來,展現(xiàn)給用戶。
此次設(shè)計通過MATLAB軟件實現(xiàn)對語音信號的調(diào)試。在接收語音信號時,有可能產(chǎn)生外界的干擾噪聲,這就需要我們通過一系列復(fù)雜的公式計算,對該信號進(jìn)行處理,進(jìn)而在送由單片機(jī)進(jìn)行下一步的工作。
4結(jié)束語
語音識別技術(shù)是實現(xiàn)人與計算機(jī)進(jìn)行直接對話,讓計算機(jī)自動對人所說的話進(jìn)行識別、理解并執(zhí)行的技術(shù)手段。語音識別技術(shù)的應(yīng)用已經(jīng)成為一個被受關(guān)注的新型技術(shù)產(chǎn)業(yè),它的實現(xiàn)能夠簡化人們在以往工作中的繁瑣,未來語音識別還要向低成本、高性能方向不斷發(fā)展。
【參考文獻(xiàn)】
[關(guān)鍵詞]語音識別系統(tǒng);差異性;指標(biāo)需求
一、引言
語音作為語言的聲學(xué)體現(xiàn),也是人類進(jìn)行信息交流最自然、和諧的手段。與機(jī)械設(shè)各進(jìn)行語音的溝通,讓機(jī)器可以明白人類在說什么,并理解這是人類長期的夢想。語音識別技術(shù),也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。語音識別技術(shù)的應(yīng)用包括語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識別技術(shù)與其他自然語言處理技術(shù)如機(jī)器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,語音識別技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。
二、語音信號分析與特征提取
1.基于發(fā)音模型的語音特征。(1)發(fā)音系統(tǒng)及其模型表征。其發(fā)聲過程就是由肺部進(jìn)行收縮,并進(jìn)行壓縮氣流由支氣管通過聲道和聲門引起的音頻振蕩所發(fā)生的。氣流通過聲門時使得聲帶的張力剛好使聲帶發(fā)生比較低的頻率的振蕩,從而形成準(zhǔn)周期性的空氣脈沖,空氣脈沖激勵聲道便會產(chǎn)生一些濁音;聲道的某處面積比較小,氣流沖過時便會產(chǎn)生湍流,會得到一種相似噪聲的激勵,對應(yīng)的則是摩擦音;聲道完全閉合并建立起相應(yīng)的氣壓,突然進(jìn)行釋放就是爆破音。(2)語音信號線性預(yù)測倒譜系數(shù)。被廣泛應(yīng)用的特征參數(shù)提取技術(shù)的就是線性預(yù)測分析技術(shù),很多成功的應(yīng)用系統(tǒng)都是選用基于線性預(yù)測技術(shù)進(jìn)而提取的LPC倒譜系數(shù)作為應(yīng)用系統(tǒng)的特征。LPC倒譜就是復(fù)倒譜。復(fù)倒譜就是信號通過z進(jìn)行變換以后再取其對數(shù),求反z變換所得到的譜。線性預(yù)測分析方法其實就是一種譜的估計方法,所以其聲道模型系統(tǒng)函數(shù)H(z)反映的就是聲道頻率激勵和信號的譜包絡(luò),對IHg(z)作反z變換就可以得出其復(fù)倒譜系數(shù)。改復(fù)倒譜系數(shù)是依據(jù)線性預(yù)測模型直接獲得的,而又被稱為LPC倒譜系數(shù)(LPCC)。
2.基于聽覺模型的語音特征。(1)聽覺系統(tǒng)模型。一是人類的聽覺系統(tǒng)對于聲音頻率高低和聲波實際的頻率高低不是線性的關(guān)系,它對不同聲音頻率信號的敏感度是不一樣的,也可看成是對數(shù)關(guān)系。二是關(guān)于掩蔽效應(yīng)指的就是聲音A感知的閉值因為另外的身影的出現(xiàn)出現(xiàn)增大的現(xiàn)象。其生理依據(jù)主要是頻率群,對頻率群進(jìn)行劃分會出現(xiàn)許多的很小的部分,每一個部分都會對應(yīng)一個頻率群,掩蔽效應(yīng)就發(fā)生在這些部分過程中。所以在進(jìn)行相應(yīng)的聲學(xué)測量時,頻率刻度一般取非線性刻度。語音識別方面,主要的非線性頻率刻度有Mel刻度、對數(shù)刻度和Kon~nig刻度。其中Mel刻度被廣泛的應(yīng)用,其是最合理的頻率刻度。(2)語音信號Mcl頻率倒譜系數(shù)。Mel頻率倒譜系數(shù)利用人們耳朵的聽覺特性,在頻域?qū)㈩l率軸變換為Mcl頻率刻度,再變換到倒譜域得到倒譜系數(shù)。MFCC參數(shù)的計算過程:
一是對語音信號進(jìn)行相應(yīng)的預(yù)加重,從而確定了每一幀的語音采樣的長度,語音信號通過離散FFT變換得到其頻譜。二是求頻譜幅度的平方,得到能量譜,并選用一組三角濾波器在頻譜域?qū)δ芰窟M(jìn)行帶通濾波。帶通濾波器中心頻率一般是按照Mcl頻率刻度排列的(間隔為150Mel,帶寬為300Mel),其每個三角形濾波器的兩個底點頻率和相鄰的兩個濾波器的中心頻率相等,頻率響應(yīng)之和為l。濾波器的個數(shù)一般和臨界帶數(shù)比較相近,設(shè)濾波器數(shù)是M,濾波后得到的輸出為:X(k),k=1,2,…,M。
關(guān)鍵詞:語音識別;動態(tài)時間規(guī)整(DTW);數(shù)字信號處理器(DSP)
1 引言
語音識別按不同的角度有以下幾種分類方法:從所要識別的單位,有孤立詞識別、音素識別、音節(jié)識別、孤立句識別、連續(xù)語音識別和理解。目前已進(jìn)入識別的語音識別系統(tǒng)是單詞識別。以幾百個單詞為限定識別對象。從識別的詞匯量來分。有小詞匯(10-50個)、中詞匯(50-200個)、大詞匯(200以上)等。從講話人的范圍來分。有單個特定講話人、多講話人和與講話者者無關(guān)。特定講話人比較簡單,能夠得到較高的識別率。后兩者難度較大,不容易得到高的識別率。 從識別的方法分。有模塊匹配法、隨機(jī)模型法和概率語法分析法。這三種都屬于統(tǒng)計模式識別方法。
2 系統(tǒng)硬件及組成
2.1 系統(tǒng)概述
語音識別系統(tǒng)的典型實現(xiàn)方案如圖1所示。輸入的模擬語音信號首先要進(jìn)行預(yù)處理,語音信號經(jīng)過預(yù)處理后,接下來重要的一環(huán)就是特征參數(shù)提取,其目的是從語音波形中提取出隨時間變化的語音特征序列。然后建立聲學(xué)模型,在識別的時候?qū)⑤斎氲恼Z音特征同聲學(xué)模型進(jìn)行比較,得到最佳的識別結(jié)果。
2.2 硬件構(gòu)成
本文采用DSP芯片為核心(圖2所示),系統(tǒng)包括直接雙訪問快速SRAM、一路ADC/一路DAC及相應(yīng)的模擬信號放大器和抗混疊濾波器。外部只需擴(kuò)展FLASH存儲器、電源模塊等少量電路即可構(gòu)成完整系統(tǒng)應(yīng)用。
2.3 系統(tǒng)主要功能模塊構(gòu)成
語音處理模塊采用TI TMS320VC5402, TMS320VC5402含4 KB的片內(nèi)ROM和16 KB的雙存取RAM,一個HPI(HostPortInterface)接口,二個多通道緩沖單口MCBSP(Multi-Channel Buffered SerialPort),單周期指令執(zhí)行時間10 ns,帶有符合IEEE1149.1標(biāo)準(zhǔn)的JTAG邊界掃描仿真邏輯。語音輸入、輸出的模擬前端采用TI公司的TLC320ADSOC,它是一款集成ADC和DAC于一體的模擬接口電路,并且與DSP接口簡單,性能高、功耗低,已成為當(dāng)前語音處理的主流產(chǎn)品。16位數(shù)據(jù)結(jié)構(gòu),音頻采樣頻率為2~22.05 kHz,內(nèi)含抗混疊濾波器和重構(gòu)濾波器的模擬接口芯片,還有一個能與許多DSP芯片相連的同步串行通信接口。TLC320AD50C片內(nèi)還包括一個定時器(調(diào)整采樣率和幀同步延時)和控制器(調(diào)整編程放大增益、鎖相環(huán)PLL、主從模式)。TLC320AD50C與TMS320VC5402的硬件連接,如圖3所示。
3 結(jié)論
本文以TMS320VC5402芯片為核心的系統(tǒng)硬件設(shè)計迸行了研究,通過TLC320AD50C對語音信號進(jìn)行A/D轉(zhuǎn)換,通過TMS320VC5402對語音信號“0”、“1”、“2”進(jìn)行訓(xùn)練和識別,并由對于燈LED0、LED1、LED2亮來顯示結(jié)果是否正確;該系統(tǒng)核心識別算法采用動態(tài)時間規(guī)整(DTW)算法,主要流程包括預(yù)處理、端點檢測、提取特征值、模式匹配和模板訓(xùn)練,取得了很好的識別效果。
參考文獻(xiàn)
[1] 朱銘鋯, 趙勇, 甘泉. DSP應(yīng)用系統(tǒng)設(shè)計 [M].北京:電子工業(yè)出版社,2002.
[2] 郭華. 自適應(yīng)濾波算法及應(yīng)用研究[D].蘭州:西北師范大學(xué),2007.
[3] 張雄偉..DSP芯片的原理與開發(fā)應(yīng)用[M].北京:電子工業(yè)出版社,2009.
[4] 張德豐. 數(shù)字圖象處理(MATLAB版)[M].北京:人民郵電出版社,2009.
作者簡介
王宇,邵陽學(xué)院魏源國際學(xué)院電子科學(xué)與技術(shù)專業(yè)學(xué)生。
關(guān)鍵詞: 語音識別;DHMM;Viterbi;嵌入式系統(tǒng);ARM
中圖分類號:TP399 文獻(xiàn)標(biāo)識碼:A文章編號:1006-4311(2012)04-0126-020引言
隨著計算機(jī)技術(shù)的飛速發(fā)展,各種各樣的應(yīng)用層出不窮,其中使用語音與計算機(jī)程序進(jìn)行交互成為了最近熱門的研究方向。語音作為人類與計算機(jī)之間無形的連接方式,可以使人們方便、快捷地控制和使用計算機(jī)。語音識別技術(shù)是能夠讓原來非智能的計算設(shè)備理解人類思想的高科技技術(shù),融合了信號處理、人工智能以及自動化等多學(xué)科、多領(lǐng)域的研究成果,是目前實現(xiàn)人工智慧的主要途徑之一。
根據(jù)不同的分類標(biāo)準(zhǔn),語音識別可分為不同的種類,例如依據(jù)識別對象的不同,可分為特定人語音識別及非特定人語音識別;又根據(jù)人類的講話方式可分為孤立詞識別、連接詞識別以及連續(xù)語音識別。不同的識別系統(tǒng)雖然在語音識別過程中步驟相似,但根據(jù)不同系統(tǒng)的需求及特點其實現(xiàn)方式及具體細(xì)節(jié)是不同的[1]。
嵌入式技術(shù)的迅猛進(jìn)步,使得語音識別技術(shù)的應(yīng)用更加廣泛,不再局限于實驗室以及大型場合;其已經(jīng)被嵌入各種移動設(shè)備,為人們對移動設(shè)備的操作方式提供了一種嶄新途徑和使用體驗。本文就針對移動設(shè)備的特點,設(shè)計了一種面向非特定人的孤立詞語音識別系統(tǒng)。
1語音識別的工作原理
原始的自然語音信號中不僅含有人體自身的聲音信號,同樣也包含了大量的雜音、噪聲等混雜在一起的隨機(jī)干擾信號,尤其作為移動、嵌入式設(shè)備被使用者隨身攜帶使用,會有更多的環(huán)境噪聲信號。針對大量噪聲的數(shù)據(jù)計算以及嵌入式設(shè)備有限的計算資源,為保證系統(tǒng)的對自然語言的正確識別率,并且有效減少處理原始語音信號的大量數(shù)據(jù)密集計算,有必要研究語音信號的預(yù)處理技術(shù),以期高效提取語音特征參數(shù),并選取合適的壓縮算法進(jìn)行語音數(shù)據(jù)壓縮,之后再進(jìn)行語音的模式匹配[2]。
如圖1所示,人本身的語音信號從語音錄入設(shè)備進(jìn)入后,將進(jìn)行預(yù)處理、端點檢測、特征提取,轉(zhuǎn)換為可以對比的信號參數(shù),然后將特征參數(shù)通過選取的特征匹配方法與參考樣例庫中的模板樣例進(jìn)行語言匹配,選擇符合度最大的語言樣例進(jìn)行相應(yīng)處理,得出識別結(jié)果。
2系統(tǒng)硬件設(shè)計
系統(tǒng)的硬件結(jié)構(gòu)示意圖如圖2所示。
系統(tǒng)的處理核心采用了韓國三星公司的一款基于ARM 920T內(nèi)核的S3C2440微處理器;此款處理器中的CMOS宏單元和存儲單元采用了0.18um電子工藝,內(nèi)部總線采用Advanced Microcontroller Bus Architecture(AMBA)新型總線結(jié)構(gòu),具備出色的全靜態(tài)設(shè)計,利用了多項低功耗技術(shù),系統(tǒng)架構(gòu)精簡,特別為價格和功耗敏感的應(yīng)用而精心打造。除此之外,它特別為各種外設(shè)準(zhǔn)備了豐富的中斷處理資源,包括總計共有60個中斷源(其中包括5個定時器硬中斷,9個串口中斷,24個外部中斷,1個看門狗定時器,4個DMA,2個ADC,1個LCD,1個電池故障,1個IIC,2個SPI,1個SDI,2個USB,1個NAND FLASH口,2個視頻口和1個AC97音頻口),這些中斷既可以使用電平/邊沿觸發(fā)模式進(jìn)行外部中斷的觸發(fā),也可以使用軟件編程的方式改變邊沿/電平觸發(fā)極性,能夠為緊急中斷請求提供快速中斷(FIQ)服務(wù)[3]。
系統(tǒng)工作時,人的語音信號經(jīng)過MIC輸入,并通過濾波、去噪等操作后,在S3C2440上執(zhí)行語音特征提取、語音模式匹配算法,最終輸出結(jié)果;系統(tǒng)中的USB接口可以方便系統(tǒng)外擴(kuò)各種標(biāo)準(zhǔn)USB外設(shè),以便使用語音識別結(jié)果進(jìn)行各種設(shè)備控制。
3系統(tǒng)軟件設(shè)計
3.1 Linux內(nèi)核移植移植Linux內(nèi)核一般分為幾個固定的步驟,目前較為流行快速開發(fā)方法通常先在內(nèi)核的處理器架構(gòu)目錄下,選擇與目標(biāo)開發(fā)板硬件結(jié)構(gòu)最接近的并且各種配置較為完善的開發(fā)板目錄作為移植模板。接著針對本開發(fā)板與目標(biāo)開發(fā)板的硬件具體差別,進(jìn)行對應(yīng)的修改或使用前人的移植補(bǔ)丁進(jìn)行升級。針對本開發(fā)板,我們使用了穩(wěn)定的Linux-2.6.15內(nèi)核進(jìn)行移植,考慮到本系統(tǒng)的具體硬件配置,最后選擇了SMDK2440開發(fā)板模板作為移植的目標(biāo)開發(fā)板模板。在編譯和配置內(nèi)核前,建議使用menuconfig或其它配置工具對內(nèi)核進(jìn)行適當(dāng)?shù)牟眉簦€可以進(jìn)一步編寫配置腳本。嵌入式Linux內(nèi)核的裁減類似于PC上Linux內(nèi)核的裁減,主要的工作是根據(jù)硬件和系統(tǒng)需求增添需要支持的模塊,并除去無用的功能模塊,以使Linux內(nèi)核與目標(biāo)硬件系統(tǒng)緊密相依,但要注意嵌入式Linux內(nèi)核的特征是小、精、有效。內(nèi)核的編譯則通常是通過修改根目錄以及其它子目錄下的Makefile,以及在預(yù)編譯前設(shè)置編譯參數(shù)值時進(jìn)行選定,或是使用編譯工具[4]。
最后,使用make工具生成U-boot可以識別的uImage引導(dǎo)程序鏡像文件。uImage鏡像文件通過U-Boot引導(dǎo)程序從FLASH中取出并解壓縮,裝入內(nèi)存后,Linux內(nèi)核便取得系統(tǒng)控制權(quán)。
Linux內(nèi)核移植的整個過程如圖3所示。
3.2 系統(tǒng)軟件設(shè)計整個系統(tǒng)軟件結(jié)構(gòu)如圖4所示。面向終端用戶的軟件形勢分為兩種:web插件和普通的軟件界面;web插件可以使用在瀏覽器中,方面用戶控制網(wǎng)頁瀏覽。下面是命令解析層Command layer,負(fù)責(zé)解釋兩種界面發(fā)送的命令,調(diào)用相應(yīng)的程序接口并返回執(zhí)行后的結(jié)果。功能模塊Function modules主要封裝軟件API,負(fù)責(zé)提供各種常用的功能服務(wù)??刂颇KControl modules負(fù)責(zé)管理和控制語音識別引擎,建立語音樣例庫以及調(diào)整語音設(shè)備引擎的內(nèi)部參數(shù),將來還可以加入新的語音模式匹配算法。再下面一層是統(tǒng)一APIs層,主要對核心語音識別引擎進(jìn)行簡單的API封裝,同時預(yù)留了將來要擴(kuò)展的功能接口,以便后續(xù)的功能升級和代碼維護(hù);最下面的就是核心語音識別引擎,主要提供模式匹配算法以及對底層系統(tǒng)級的控制功能。
3.3 語音識別算法本語音識別系統(tǒng)的識別任務(wù)主要為針對設(shè)備持有者的小詞匯量孤立詞的語音識別,功能較為簡單,需要使用者進(jìn)行一定量的訓(xùn)練后,系統(tǒng)對應(yīng)建立語音樣例庫,然后針對每次的聲音進(jìn)行模式匹配即可,所以算法的重點在于模式匹配算法。綜合計算性能需要、存儲資源消耗以及價格成本考慮,目前流行的DHMM語言識別模型對本系統(tǒng)較為合適。DHMM模型是一種隨機(jī)統(tǒng)計過程,通過大量的模板訓(xùn)練過程提取語音特征,可滿足語音實時變化且識別實時性要求較高的應(yīng)用場合。
本系統(tǒng)采用了當(dāng)前性價比較高的Viterbi算法實現(xiàn)DHMM模型。Viterbi算法可以由如下公式描述[5]:
?啄t(i)=■p(s1,s2,…,st=si,O1,O2,…,Ot|?姿)
其中,?啄t(i)為被識別語音序列t時刻的最大概率密度;其中t時刻前經(jīng)過的語音狀態(tài)序列為s1,s2,...st,且t時刻狀態(tài)為si,對應(yīng)輸出觀察符序列為O1,O2,...Ot。
4結(jié)束語
人類與計算機(jī)之間的交流的方式經(jīng)過了按鍵輸入、鍵盤輸入、手寫輸入以及觸摸輸入的階段,但這已經(jīng)不能滿足人們對于便捷、快速輸入的更高需求,而語音識別技術(shù)的發(fā)展和應(yīng)用,使得人們看到了計算機(jī)輸入的未來趨勢。相信隨著電子技術(shù)和信號處理技術(shù)的進(jìn)一步提高,語音輸入將會廣泛應(yīng)用于各種計算機(jī)以及嵌入式設(shè)備中。
參考文獻(xiàn):
[1]馬莉,黨幼云.特定人孤立詞語音識別系統(tǒng)的仿真與分析[J].西安工程科技學(xué)院學(xué)報,2007,(03).
[2]邢銘生,朱浩,王宏斌.語音識別技術(shù)綜述[J].科協(xié)論壇(下半月),2010,(03).
[3]涂剛,陽富民等.嵌入式操作系統(tǒng)綜述[J].計算機(jī)應(yīng)用研究,2000,17(11):4-6.