語音識別之初體驗

2021-09-30 12:02:07 字數 2440 閱讀 3052

一、概述

作為最自然的人機互動方式 --語音,正在改變人們的生活,豐富多**技術的應用。語音識別技術是語音頻號處理的乙個重要分支,也是近年來很火的乙個研究領域。隨著科技的飛速發展,語音識別不僅在桌面pc和大型工作站得到了廣泛應用,而且在嵌入式系統領域也占有一席之地,如智慧型家居、蘋果的siri、車載語音識別系統等。相信在不久的將來,語音識別技術必定會滲透在人們生活的每個角落。

二、語音識別系統的分類

語音識別按照說話人的說話方式可以分為孤立詞(

isolatedword

)識別、連線詞(

connected word

)識別和連續語音(

continuous speech

)識別。孤立詞識別是指說話人每次只說乙個詞或短語,每個詞或短語在詞彙表中都算作乙個詞條,一般用在語音**撥號系統中;連線詞語音識別支援乙個小的語法網路,其內部形成乙個狀態機,可以實現簡單的家用電器的控制,而複雜的連線詞語音識別系統可以用於**語音查詢、航空訂票等系統;連續語音識別是指對說話人以日常自然的方式發音,通常特指用於語音錄入的聽寫機。

從識別物件的型別來看,語音識別可以分為特定人(

speakerdependent

)語音識別和非特定人(

speaker independent

)語音識別。特定人是指只針對乙個使用者的語音識別,非特定人則可用於不同的使用者。

從識別的詞彙量大小可以分為小詞彙量(詞數少於

100)、中等詞彙量(詞數

100~500

)和大詞彙量(詞數多於

500)。

非特定人大詞彙量連續語音識別是近幾年研究的重點,也是研究的難點。目前的連續語音識別大多是基於hmm(隱馬爾科夫模型)框架,並將聲學、語言學的知識統一引入來改善這個框架,其硬體平台通常是功能強大的工作站或pc機。

三、語音識別的原理

語音識別就是對麥克風輸入的語音頻號進行解析和理解,並將其轉化為相應的文字或命令。

乙個完整的語音識別系統主要包括三個部分:

(1)語音特徵提取(前端處理部分):目的是濾除各種干擾成分,從語音波形中提取出隨時間變化的能表現語音內容的特徵向量序列。

(2) 聲學模型和模式匹配(識別演算法):聲學模型通常由獲得的語音特徵通過訓練產生,目的是為每個發音建立發音模板。在識別時將輸入的語音特徵同聲學模型進行匹配與比較,得到最佳識別結果。

(3) 語義理解(後處理):計算機對識別結果進行語義、語法分析,明白語音的意義以便做出相應的反應,通常通過語言模型來實現。

語音識別原理如下圖所示:

待識別語音經話筒轉化為電訊號後加在識別系統的輸入端,經過預處理,接著進行語音特徵提取,用反映語音頻號特徵的若干引數來代表原始語音。常用的語音特徵包括:線性**係數(lpc)、線性**倒譜係數(lpcc)、mel頻譜係數(mfcc)等。接下來分為兩個階段::訓練階段和識別階段。在訓練階段,對用特徵引數形式表示的語音頻號進行相應處理,獲得表示識別基本單元共性特點的標準資料,以此構成參考模板,將所有能識別的基本單元的參考模板結合在一起,形成參考模式庫;在識別階段,將待識別的語音頻號經特徵提取後逐一與參考模式庫中的各個模板按某種原則進行匹配,找出最相似的參考模板所對應的發音,即為識別結果。最後進行語音處理,涉及語法分析、語音理解、語義網路等。

語音識別過程要根據模式匹配原則,計算未知語音模式與語音模板庫中的每乙個模板的距離測度,從而得到最佳的匹配模式。語音識別所應用的模式匹配方法主要有動態時間規整(dynamic time warping,dtw),隱馬爾科夫模型(hidden markov model,hmm)和人工神經元網路(artificial neural networks,ann)。

四、難題

識別率是衡量語音識別系統效能好壞的乙個重要指標,在實際應用中,識別率主要受到以下幾個因素的影響:

1、  對於漢語語音識別,方言或口音會降低識別率;

2、  背景雜訊。公共場所的強雜訊對識別效果影響甚大,即使是在實驗室環境下,敲擊鍵盤、移動麥克風都會成為背景雜訊;

3、  「口語」問題。它既涉及到自然語言理解,又與聲學有關。語音識別技術的最終目的是要讓使用者在「人機對話」時,能夠像進行「人與人對話」一樣自然,而一旦使用者以跟人交談的方式進行語音輸入時,口語的語法不規範和語序不正常的特點會給語義的分析和理解帶來困難。

此外,識別率還與說話人的性別、說話時間長短等有關。

實時性是衡量語音識別系統效能好壞的另一指標。

對於具有高速運算能力的cpu和大容量儲存器的pc而言,基本上能夠滿足實時性的要

求;而對於資源有限的嵌入式系統來說,實時性幾乎得不到保證。

語音識別之初體驗

一 概述 作為最自然的人機互動方式 語音,正在改變人們的生活,豐富多 技術的應用。語音識別技術是語音頻號處理的乙個重要分支,也是近年來非常火的乙個研究領域。隨著科技的飛速發展,語音識別不僅在桌面pc和大型工作站得到了廣泛應用,並且在嵌入式系統領域也占有一席之地。如智慧型家居 蘋果的siri 車載語音...

bing之初體驗

哈哈,期待已久的微軟搜尋引擎bing 必應 的中文版今天終於推出了。剛開始使用google搜尋其主頁時怎麼也搜尋不到,還以為微軟食言。後來轉念一想,bing很可能是google未來的最大競爭對手,在當前這個還不為人所熟知的階段,很有可能給對方穿穿小鞋的。於是用在ie自帶的搜尋工具條上鍵入bing之後...

Statspack之初體驗

呵呵,今晚之前從來沒有做過statspack 好像有點丟人 這幾天乙個資料庫實在被折磨得不行了,明明sga max size有1.5g,但是實際看整個例項才用了200 m記憶體,慢得要死,頻繁讀寫硬碟,偏偏硬碟又不是磁碟陣列,io狂慢,唉,痛苦啊。於是決定花點時間學下例項優化,今天列印了幾頁perf...