語音識別基本流程

2021-08-31 11:52:13 字數 1044 閱讀 2004

所謂語音識別,就是將一段語音頻號轉換成相對應的文字資訊,系統主要包含特徵提取、聲學模型,語言模型以及字典與解碼四大部分,此外為了更有效地提取特徵往往還需要對所採集到的聲音頻號進行濾波、分幀等音訊資料預處理工作,將需要分析的音訊訊號從原始訊號中合適地提取出來;特徵提取工作將聲音頻號從時域轉換到頻域,為聲學模型提供合適的特徵向量;聲學模型中再根據聲學特性計算每乙個特徵向量在聲學特徵上的得分;而語言模型則根據語言學相關的理論,計算該聲音頻號對應可能片語序列的概率;最後根據已有的字典,對片語序列進行解碼,得到最後可能的文字表示。

預處理:1. 首尾端的靜音切除,降低對後續步驟造成的干擾,靜音切除的操作一般稱為vad。

2. 聲音分幀,也就是把聲音切開成一小段一小段,每小段稱為一幀,使用移動窗函式來實現,不是簡單的切開,各幀之間一般是有交疊的。

特徵提取:主要演算法有線性**倒譜係數(lpcc)和mel 倒譜係數(mfcc),目的是把每一幀波形變成乙個包含聲音資訊的多維向量;

聲學模型(am):通過對語音資料進行訓練獲得,輸入是特徵向量,輸出為音素資訊;

字典:字或者詞與音素的對應, 簡單來說, 中文就是拼音和漢字的對應,英文就是音標與單詞的對應;

語言模型(lm):通過對大量文字資訊進行訓練,得到單個字或者詞相互關聯的概率;

解碼:就是通過聲學模型,字典,語言模型對提取特徵後的音訊資料進行文字輸出;

語音識別流程的舉例(只是形象表述,不是真實資料和過程):

1. 語音頻號:pcm檔案等(我是機械人)

2. 特徵提取:提取特徵向量[1 2 3 4 56 0 ...]

3. 聲學模型:[1 2 3 4 56 0]-> w o s i j i q i r n

4. 字典:窩:w o;我:w o; 是:s i; 機:j i; 器:q i; 人:r n;級:j i;忍:r n;

5. 語言模型:我:0.0786, 是: 0.0546,我是:0.0898,機器:0.0967,機械人:0.6785;

6. 輸出文字:我是機械人;

語音識別基本流程

所謂語音識別,就是將一段語音頻號轉換成相對應的文字資訊,系統主要包含特徵提取 聲學模型,語言模型以及字典與解碼四大部分,此外為了更有效地提取特徵往往還需要對所採集到的聲音頻號進行濾波 分幀等音訊資料預處理工作,將需要分析的音訊訊號從原始訊號中合適地提取出來 特徵提取工作將聲音頻號從時域轉換到頻域,為...

語音識別的基本方法

一般來說 語音識別的方法有三種 基於聲道模型和語音知識的方法 模板匹配的方法以及利用人工神經網路的方法 1 1 基於語音學和聲學的方法 該方法起步較早,在語音識別技術提出的開始,就有了這方面的研究,但由於其模型及語音知識過於複雜,現階段沒有達到實用的階段。通常認為常用語言中有有限個不同的語音基元,而...

語音識別1 基本知識入門

聲學模型 語音識別工具 技能 意圖 使用者的每一輪對話,都可以認為是乙個意圖。每乙個意圖都是為了實現使用者進行這輪對話的目的。如意圖 查詢天氣 使用者的目的就是為了查詢某天某地的天氣狀況。乙個任務,需要使用者進行一輪或者多輪對話。使用者的每一輪對話,都可以認為是乙個意圖 任務 使用者說法 使用者說法...