最近學習過程中整理的語音識別的基礎知識的筆記
語音識別本質上是一種模式識別的過程,未知語音的模式與已知語音的參考模式逐一進行比較,最佳匹配的參考模式被作為識別結果。
當今語音識別技術的主流演算法
,主要有基於動態時間規整
(dtw)
演算法、基於非引數模型的向量量化
(vq)
方法、基於引數模型的隱馬爾可夫模型
(hmm)
的方法、基於人工神經網路
(ann)
和支援向量機等語音識別方法。
一 . 語音識別分類:
根據對說話人的依賴程度 :
1)特定人語音識別(sd):只能辨認特定使用者的語音,訓練→使用。
2) 非特定人語音識別(
si):可辨認任何人的語音,無須訓練。
根據對說話方式的要求 :
1)孤立詞識別:每次只能識別單個詞彙。
2)連續語音識別:用者以正常語速說話,即可識別其中的語句。
二. 語音識別系統的基本流程
(1)預處理模組:
對輸入的原始語音頻號進行處理,濾除掉其中的不重要的資訊以及背景雜訊,
語音頻號的端點檢測(找出語音頻號的始末)、
語音分幀(近似認為在10-30ms內是語音頻號是短時平穩的,將語音頻號分割為一段一段進行分析)
預加重(提公升高頻部分)等處理
(2)特徵提取:
去除語音頻號中對於語音識別無用的冗餘資訊,保留能夠反映語音本質特徵的資訊,並用一定的形式表示出來。
目前的較常用的提取特徵的方法還是比較多的,不過這些提取方法都是由頻譜衍生出來的。
梅爾頻率倒譜係數(mfcc)引數因其良好的抗噪性和魯棒性而應用廣泛。mfcc
的計算首先用
fft將時域訊號轉化成頻域,之後對其對數能量譜用依照
mel刻度分布的三角濾波器組進行卷積,最後對各個濾波器的輸出構成的向量進行離散余弦變換
dct,取前
n個係數。
cmusphinx
中也是用
mfcc
特徵的,
用幀frames
去分割語音波形,每幀大概
10ms
,然後每幀提取可以代表該幀語音的
39個數字,這
39個數字也就是該幀語音的
mfcc
特徵,用特徵向量來表示。
(3)聲學模型訓練:
根據訓練語音庫的特徵引數訓練出聲學模型引數。在識別時可以將待識別的語音的特徵引數同聲學模型進行匹配,得到識別結果。
目前的主流語音識別系統多採用隱馬爾可夫模型hmm進行聲學模型建模。聲學模型的建模單元,可以是音素,音節,詞等各個層次。對於小詞彙量的語音識別系統,可以直接採用音節進行建模。而對於詞彙量偏大的識別系統,一般選取音素,即聲母,韻母進行建模。識別規模越大,識別單元選取的越小。(《hmm學習最佳範例》、《隱馬爾科夫模型(hmm)簡介》、《一文搞懂hmm》)
(4)語言模型訓練:
語言模型是用來計算乙個句子出現概率的概率模型。
語言建模能夠有效的結合漢語語法和語義的知識,描述詞之間的內在關係,從而提高識別率,減少搜尋範圍。語言模型分為三個層次:字典知識,語法知識,句法知識。
對訓練文字資料庫進行語法、語義分析,經過基於統計模型訓練得到語言模型。
語言建模方法主要有基於規則模型和基於統計模型兩種方法。統計語言模型是用概率統計的方法來揭示語言單位內在的統計規律,其中n-gram模型簡單有效,被廣泛使用。它包含了單詞序列的統計。
n-gram模型基於這樣一種假設,第n個詞的出現只與前面n-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料中統計n個詞同時出現的次數得到。常用的是二元的bi-gram和三元的tri-gram。
sphinx中是採用二元語法和三元語法的統計語言概率模型,也就是通過前乙個或兩個單詞來判定當前單詞出現的概率p(w2| w1),p(w3| w2, w1)。
(5)語音解碼和搜尋演算法:
解碼器:
1. 解碼端通過搜尋技術尋找最優詞串的方法。
2. 連續語音識別中的搜尋,就是尋找乙個詞模型序列以描述輸入語音頻號,從而得到詞解碼序列。
3. 基於動態規劃的viterbi演算法,在每個時間點上的各個狀態,計算解碼狀態序列對觀察序列的後驗概率,並在每個節點記錄下相應的狀態資訊以便最後反向獲取詞解碼序列。viterbi演算法本質上是一種動態規劃演算法,該演算法遍歷hmm狀態網路並保留每一幀語音在某個狀態的最優路徑得分。
搜尋演算法 :
n-best搜尋和多遍搜尋:
為在搜尋中利用各種知識源,通常要進行多遍搜尋,第一遍使用代價低的知識源(如聲學模型、語言模型和音標詞典),產生乙個候選列表或詞候選網格,在此基礎上進行使用代價高的知識源(如4階或
5階的n-gram、4
階或更高的上下文相關模型)的第二遍搜尋得到最佳路徑。
順便記錄了一下語音識別基礎知識的思維導圖如下 :
語音基礎知識
1 語音頻號的處理基礎 1 語音頻號的產生模型 語音是由發生器官產生的。肺呼進空氣,由氣管呼出形成氣流,氣流經由聲門,使聲帶振動,產生一系列離散脈衝,再經由咽腔和口腔,有時還經由鼻腔。隨著發音的不同,口的張合程度不同,舌在口中位置的不同,氣流經過各容積不斷變化的空腔時產生許多共振,最後從口和鼻以聲波...
VOIP語音基礎知識
voip語音基礎知識 1.voice gateway 主要用於實現從ip網路到傳統 網路 pstn 線路的轉換。2.gatekeeper 網守,它提供了兩個功能。第乙個 呼叫選路,類似於dns功能,負載 號碼和ip的解析。第二 cac,用於對呼叫建立請求的一種接納機制 接通前檢查網路頻寬環境是否建立...
語音的基礎知識
1 語音頻號的處理基礎 1 語音頻號的產生模型 語音是由發生器官產生的。肺呼進空氣,由氣管呼出形成氣流,氣流經由聲門,使聲帶振動,產生一系列離散脈衝,再經由咽腔和口腔,有時還經由鼻腔。隨著發音的不同,口的張合程度不同,舌在口中位置的不同,氣流經過各容積不斷變化的空腔時產生許多共振,最後從口和鼻以聲波...