語音,是指人類通過發音器官發出來的、具有一定意義的、目的是用來進行社會交際的聲音。在語言的形、音、義三個基本屬性當中,語音是第一屬性,人類的語言首先是以語音的形式語音形成,世界上有無文字的語言,但沒有無語音的語言,語音在語言中起決定性的支撐作用。
語音由人的發音器官發出,負載著一定的語言意義。語言依靠語音實現它的社會功能。語言是音義結合的符號系統,語言的聲音和語言的意義是緊密聯絡著的,因此,語言雖是一種聲音,但又與一般的聲音有著本質的區別。語音是人類發音器官發出的具有區別意義功能的聲音,不能把語音看成純粹的自然物質;語音是最直接地記錄思維活動的符號體系,是語言交際工具的聲音形式。
語音的物理基礎主要有音高、音強、音長、音色,這也是構成語音的四要素。音高指聲波頻率,即每秒鐘振動次數的多少;音強指聲波振幅的大小;音長指聲波振動持續時間的長短,也稱為「時長」;音色指聲音的特色和本質,也稱作「音質」。
因此,語音頻號的清晰度是乙個十分重要的指標,高質量的語音頻號不僅可以傳達準確的資訊,而且可以增加在各個語音識別,語音通訊等領域的應用價值。但是在實際中,由於語音頻號本身的複雜性,以及各種控制現場環境存在的背景干擾,如混疊語音干擾,會大大降低訊號的質量,從而影響其實際的應用價值。本課題的主要工作就是針對這種情況,來進行語音頻號的降噪處理,獲得相對純淨的語音頻號,從而大大提高語音頻號應用系統的準確度和適應性。
語音降噪技術,最早採用模擬器器搭建相應的濾波電路來實現語音頻號的降噪,但是由於模擬電路自身的侷限性,當訊雜比小到一定程度的時候,模擬濾波器則不能很好的解決雜訊的問題。此外,當環境雜訊發生劇烈變化的時候,模擬濾波器無法快速的適應新的環境變化,這個極大的影響實際的應用價值。
目前為止,應用最多的是數字降噪技術。使用數字處理方法進行語音頻號的降噪。隨著社會生產的發展,對於語音頻號要求更為精確細緻,對於這一點,強背景雜訊下弱訊號的提取是一種有效實用的技術,具有廣泛的應用背景。由此可見,開展著方面的理論研究,並能應用於實際具有重要的現實意義。
國內降噪技術始於50年代,早期的語音降噪技術多是採用模擬電路來實現的,採用這種方法,一般可以實現的降噪量在8-12db。其技術的不足之處是清晰度差,遠不能滿足高雜訊環境下的通訊要求。且對於人的體形不同,話音的質量會有較大的區別。到了80年,主要開始使用聲音平衡原理的方式降低通訊中的雜訊,但是這種方法對於整個系統的干擾比較大。到了90年代後期,主要採用動態降噪技術,這種方法是根據語音電平的幅度動態調整輸出訊號幅度,且對不同的雜訊電平進行自動的抑制。
國外的消噪技術起步較早,起點較高,主要以美國和歐盟為代表,出現了一批實用的產品,代表了國際上的先進技術。其中俄羅斯的stc公司的主打產生是軟體sound cleaner,專業數字濾波器anf stch-156,實時處理的處理板stc-h209。ti公司是一家以dsp晶元為主要產品的公司,其主打產品是tms系列的dsp,其中有幾款用於通訊終端的晶元。motorola公司是近年來才進入dsp領域的,其主要產品有dsp56系列。其主要應用於motorola自己的手機產品,由印度的第三方軟體開發商為其開發了一套vad以及噪音消除的程式,目前已經在相關領域有了很多的應用。
目前由於dsp高速晶元以及有效演算法的出現,為數字方法實現降噪奠定了基礎。因此,以數字訊號處理器以及相關演算法為基礎的降噪技術的研究已成為新的熱點。
語音降噪主要研究如何利用訊號處理技術消除訊號中的強雜訊干擾,從而提高輸出訊雜比以提取出有用訊號的技術。消除訊號中雜訊汙染的通常方法是讓受汙染的訊號通過乙個能抑制雜訊而讓訊號相對不變的濾波器,此濾波器從訊號不可檢測的雜訊場中取得輸入,將此輸入加以濾波,抵消其中的原始雜訊,從而達到提高訊雜比的目的。
雜訊的種類有很多種,根據雜訊對輸入訊號的干擾方式,雜訊主要分為加性雜訊和乘性雜訊。加性雜訊是指雜訊對語音的干擾表現為兩者訊號在時域進行相加。乘性雜訊是指雜訊和語音在頻域是相乘的關係,在時域和語音則是卷積的關係。在現實系統中的雜訊大部分都是加性雜訊,如週期性運轉的機械、電氣干擾,撞擊等突發性干擾,而且語音識別系統對加性雜訊非常敏感。下面主要對週期性雜訊干擾,脈衝雜訊干擾以及寬頻雜訊干擾進行簡介。
週期性雜訊:週期性雜訊的特點是有許多離散的窄譜峰,它往往**於發動機,風扇等週期性運轉的機械或者電氣干擾。週期性雜訊引起的問題可能是最小的,因為可以通過檢測功率譜來搜尋到週期性雜訊,並通過濾波器進行去掉,一般可以通過固定濾波器,自適應濾波器和傅利葉變換濾波器進行濾波。
脈衝雜訊:脈衝濾波為時域波形中突然出現的窄脈衝。濾除脈衝雜訊的方法主要方法:在時域內,根據帶雜訊語音頻號幅度的平均值確定閾值,當訊號的幅度超出這一閾值的時候,則認為是脈衝雜訊,然後對該訊號進行衰減,直到完全消除為止。
頻寬雜訊:頻寬雜訊可以假設其雜訊為高斯雜訊和白雜訊,其主要特點是雜訊頻譜遍布於語音頻號頻譜之中,這種型別的雜訊消除較為困難,主要通過非線性處理方法進行雜訊的濾除。
另外,根據雜訊統計特性隨著時間變化的程度可以將雜訊分為平穩雜訊、緩變雜訊和衝激雜訊。
基於語音的情緒識別系統(Python)
源 連線 emotion recognition using speech 原鏈結是給的原始的版本,我在 win10 上執行會報錯,比如下邊的的 pyauto 無法安裝的問題。我已經將相應的安裝包上傳到 gitee 上了。碼雲位址 語音情緒識別 在 emotion recognition using...
基於verdaccio的npm私有倉庫搭建
npm install global verdaccio verdaccio看到下圖說明啟動成功 此時看到的頁面應該如下 npm adduser registry http localhost 4873首次登陸需要註冊使用者名稱和密碼 這個配置項中有 max users 預設1000,為允許使用者註...
基於Arduino的智慧型家居語音識別系統設計
基於arduino的智慧型家居語音識別系統設計 前言 galileo開源資料 接下來介紹的是基於arduino的智慧型家居語音識別系統設計。設計思路起源 晚上回到家,家裡黑漆漆一片,得找到開燈的按鈕才算完事,有時候在想,如果燈泡會聽話該多好啊,有了這個想法,智慧型家居就應運而生了,我們用arduin...