語音頻號處理常識 摘抄 自用

2022-02-27 10:48:06 字數 3435 閱讀 9656

摘抄自:筆記|自用】

包括發音機理、聽覺機理和語言機理,發音機理主要**人類發聲器官和這些器官在發聲過程中的作用,而聽覺機理主要**人類聽覺器官、聽覺神經及其辨別處理聲音的方式,語言機理主要**人類語言的分布和組織方式。這些知識對於理論突破和模型生成具有重要意義。

訊號處理:【任務】

包括語音增強、雜訊抑制、回聲抵消、混響抑制、波束形成、聲源定位、聲源分離、聲源追蹤等。具體如下:

語音增強:這裡是狹義定義,指自動增益或者陣列增益,主要是解決拾音距離的問題,自動增益一般會增加所有訊號能量,而語音增強只增加有效語音頻號的能量。

雜訊抑制:語音識別不需要完全去除雜訊,相對來說通話系統中則必須完全去除雜訊。這裡說的雜訊一般指環境雜訊,比如空調雜訊,這類雜訊通常不具有空間指向性,能量也不是特別大,不會掩蓋正常的語音,只是影響了語音的清晰度和可懂度。這種方法不適合強雜訊環境下的處理,但是足以應付日常場景的語音互動。

混響消除:混響消除的效果很大程度影響了語音識別的效果。一般來說,當聲源停止發聲後,聲波在房間內要經過多次反射和吸收,似乎若干個聲波混合持續一段時間,這種現象叫做混響。混響會嚴重影響語音頻號處理,並且降低測向精度。

聲源測向:這裡沒有用聲源定位,測向和定位是不太一樣的,而消費級麥克風陣列做到測向就可以,定位則需要更多的成本投入。聲源測向的主要作用就是偵測到與之對話人類的聲音以便後續的波束形成。聲源測向可以基於能量方法,也可以基於譜估計,陣列也常用tdoa技術。聲源測向一般在語音喚醒階段實現,vad技術其實就可以包含到這個範疇,也是未來功耗降低的關鍵因素。

波束形成:波束形成是通用的訊號處理方法,這裡是指將一定幾何結構排列的麥克風陣列的各麥克風輸出訊號經過處理(例如加權、時延、求和等)形成空間指向性的方法波束形成主要是抑制主瓣以外的聲音干擾,這裡也包括人聲,比如幾個人圍繞echo談話的時候,echo只會識別其中乙個人的聲音。

端點檢測:

端點檢測,英語是voice activitydetection,簡稱vad,主要作用是區分一段聲音是有效的語音頻號還是非語音頻號。vad是語音識別中檢測句子之間停頓的主要方法,同時也是低功耗所需要考慮的重要因素。vad通常都用訊號處理的方法來做,之所以這裡單獨劃分,因為現在vad的作用其實更加重要,而且通常vad也會基於機器學習的方法來做。

聲學模型通常不能直接處理聲音的原始資料,這就需要把時域的聲音原始訊號通過某類方法提取出固定的特徵序列,然後將這些序列輸入到聲學模型。事實上深度學習訓練的模型不會脫離物理的規律,只是把幅度、相位、頻率以及各個維度的相關性進行了更多的特徵提取。

聲學模型是語音識別中最為關鍵的部分,是將聲學和計算機學的知識進行整合,以特徵提取部分生成的特徵作為輸入,並為可變長的特徵序列生成聲學模型分數。聲學模型核心要解決特徵向量的可變長問題和聲音頻號的多變性問題。事實上,每次所提到的語音識別進展,基本上都是指聲學模型的進展。聲學模型迭代這麼多年,已經有很多模型,我們把每個階段應用最為廣泛的模型介紹一下,其實現在很多模型都是在混用,這樣可以利用各個模型的優勢,對於場景的適配更加魯棒。

gmm,gaussian mixture model,即高斯混合模型,是基於傅利葉頻譜語音特徵的統計模型,可以通過不斷迭代優化求取gmm中的加權係數及各個高斯函式的均值與方差。gmm模型訓練速度較快,聲學模型參數量小,適合離線終端應用。深度學習應用到語音識別之前,gmm-hmm混合模型一直都是優秀的語音識別模型。但是gmm不能有效對非線性或近似非線性的資料進行建模,很難利用語境的資訊,擴充套件模型比較困難。

hmm,hidden markov model,即隱馬爾可夫模型,用來描述乙個含有隱含未知引數的馬爾可夫過程,從可觀察的引數中確定該過程的隱含引數,然後利用這些引數來進一步分析。hmm是一種可以估計語音聲學序列資料的統計學分布模型,尤其是時間特徵,但是這些時間特徵依賴於hmm的時間獨立性假設,這樣對語速、口音等因素與聲學特徵就很難關聯起來。hmm還有很多擴充套件的模型,但是大部分還只適應於小詞彙量的語音識別,大規模語音識別仍然非常困難。

dnn,deep neural network,即深度神經網路,是較早用於聲學模型的神經網路,dnn可以提高基於高斯混合模型的資料表示的效率,特別是dnn-hmm混合模型大幅度地提公升了語音識別率。由於dnn-hmm只需要有限的訓練成本便可得到較高的語音識別率,目前仍然是語音識別工業領域常用的聲學模型。

rnn,recurrent neural networks,即迴圈神經網路,cnn,convolutional neuralnetworks,即卷積神經網路,這兩種神經網路在語音識別領域的應用,主要是解決如何利用可變長度語境資訊的問題,cnn/rnn比dnn在語速魯棒性方面表現的更好一些。其中,

資料採集:主要是將使用者與機器對話的聲音資訊收集起來,一般分為近場和遠場兩個部分,近場採集一般基於手機就可完成,遠場採集一般需要麥克風陣列。資料採集同時還有關注採集環境,針對不同資料用途,語音採集的要求也很不一樣,比如人群的年齡分布、性別分布和地域分布等。

資料清洗:主要是將採集的資料進行預處理,剔除不合要求的語音甚至是失效的語音,為後面的資料標註提供精確的資料。

資料標註:主要是將聲音的資訊翻譯成對應的文字,訓練乙個聲學模型,通常要標註數萬個小時,而語音是時序訊號,所以需要的人力工時相對很多,同時由於人員疲憊等因素導致標註的錯誤率也比較高。如何提高資料標註的成功率也是語音識別的關鍵問題。

資料安全:主要是對聲音資料進行安全方便的處理,比如加密等,以避免敏感資訊洩露。

目前主流的開源平台包括cmu sphinx、htk、kaldi、julius、iatros、cntk、tensorflow等,cmu sphinx是離線的語音識別工具,支援dsp等低功耗的離線應用場景。由於深度學習對於語音識別wer的下降具有明顯的作用,所以kaldi、cntk、tensorflow等支援深度學習的工具目前比較流行,kaldi的優勢就是整合了很多語音識別的工具,包括解碼搜尋等。具體的開源平台彙總如表1所示。

語音頻號處理

濁音的聲帶振動基本頻率 fundamental frequency 稱為基音頻率。濁音的基音頻率 pitch 語音生成系統和語音感知系統 語音頻號生成的數學模型 語音頻號的特性分析 語音頻號處理是以語音語言學和數字訊號處理為基礎的綜合性學科,是用數字訊號處理技術對語音頻號進行處理的一門學科。說話人識...

語音常識 語音頻號的數字模型

人可以感覺到 20hz 20khz,強度 5db 130db的聲音頻號 相位 phase 是對於乙個波,特定的時刻在它迴圈中的位置 一種它是否在波峰 波谷或它們之間的某點的標度。相位描述訊號波形變化的度量,通常以度 角度 作為單位,也稱作相角。當訊號波形以週期的方式變化,波形迴圈一周即為360 頻寬...

語音頻號的預處理

2014年09月05日 綜合 共 1116字 字型大小 小 中 大 回顧上兩次的內容 上次主要說了音訊檔案的讀取 主要是matlab和c語言 感覺有幾個概念有點混淆 語音 音訊 語音英文是speech,音訊是audio,是music。據我的理解是音訊包括語音和 不知道這麼理解對不?此外,讀取音訊其實...