語音頻號之基礎知識(一)

2021-06-22 13:28:31 字數 2598 閱讀 5453

%%感染了乙個學年的語音氛圍,自己也做了一些這方面的研究,但彷彿空中架樓,很多基礎不是很紮實,而且前晚忽然意識到語音的重要,所以打算一點一點把語音基礎知識積累起來,而且為了加深理解和便於複習,特此記錄下來,供自己也供語音學習者作為參考,此系列多來自趙力的《語音頻號處理》這本書,再加一些自己理解,但寫部落格是一件很辛苦的事,希望自己堅持下來。

通過語音傳遞資訊是人類最重要、最有效、最常用和最方便的交換資訊的形式。說話人識別和語種識別是語音識別的兩種特殊形式,它們和語音識別一樣都是通過提取語音頻號的特徵和建立相應的模型進行分類判斷的,說話人識別力求找到包含在語音頻號中的說話人的個性因素,強調不同人之間的特徵差異;而語種辨別則要從乙個語音片段中判別它是哪種語種,所以盡可能找到不同語種的差異特徵。

語音基本聲學特性:語音室發聲器官發出的一種聲波,具有一定音色音調,音強和音長,其中,

音色:即音質,是一種聲音區別另一種聲音的基本特性;

音調:聲音的高低,取決於聲波的頻率;

音強:聲音的強弱,由聲波的振動幅度決定;

音長:取決於發音時間的長短。

說話時一次發出的,具有乙個響亮的中心,並被明顯的感覺到的語音片段叫音節。乙個音節由乙個音素或幾個因素構成,音素是語音發音的最小單位,任何語言都有語音的母音(vowel)和子音(consonant)。 母音構成乙個音節的主幹,無論從長度還是能量看,母音在音節中都佔主要部分子音則只出現在音節的前端或後端或前後兩端,時長和能量相對都很小。

母音是當聲帶振動發出的聲音從喉腔、咽腔進入口腔從唇腔出去時,這些聲腔完全開放,氣流順利通過產生的音。

決定母音音色的主要因素是舌頭的形狀及其在口腔中的位置和嘴唇的形狀等,母音的乙個重要特性是共振峰(formant),聲道可以看成是乙個根具有非均勻截面的聲管,在發音時起共鳴器的作用,當母音激勵進入聲道時會引起共振特性,產生一組共振頻率,稱為共振峰頻率或共振峰。

子音包含了濁音和清音。

子音是撥出的聲流,由於通路的某一部分封閉起來或受到阻礙,氣流被阻不能暢通,而克服發音器官的這種阻礙而產生的音素為子音。發子音時由聲帶是否振動引起濁音和清音的區別,振動的是濁音,不振動的是清音。

子音:子音沒有明確的共振峰結構,分為以下幾類:

(1)塞音又稱爆破音:如普通話中[p]、[t]、[k]、[b]、[d]、[g]。

(2)摩擦音:如[f]、[s]、[sh]、[x]、[h]。

(3)塞擦音:如[z]、[zh]。

(4)鼻音:如[m]、[n]。

(5)邊音:舌尖形成阻礙不讓氣流通過,但舌尖兩邊有空隙能讓氣流通過的音,如[l]。

(6)顫音:如[ra]、[r]。

(7)通音,又為半母音或半子音:通音一般是濁音,性質接近母音,如[w]、[y]。

這些音素,雖然聲道基本%%感染了乙個學年的語音氛圍,自己也做了一些這方面的研究,但是彷彿空中架樓,很多基礎不是很紮牢,而且前晚失眠忽然意識到語音的重要,所以打算一點一點把語音基礎暢通,但某處聲道比較狹窄,引起輕微摩擦音,成為半母音。

漢語由音素構成聲母和韻母,有時,將含有聲調的韻母成為調母,由單個調母或由聲母和調母拼音成為音節,漢語的乙個音節就是漢語的乙個字的音,即音節字。漢語音節一般由聲母、韻母和聲調三部分組成。

普通話中二十二個聲母分為六大類:擦音、塞音、塞擦音、邊音、鼻音、零聲母,除零聲母外,其他都是單子音。

普通話中38個韻母可以分為三類:8個單韻母,14個復韻母和16個鼻韻母。

人的發音器官包含:肺、氣管、喉、咽、鼻和口,這些器官共同形成一條形狀複雜的管道,喉的部分稱為聲門,從聲門到嘴唇的呼氣通道叫做聲道,聲道的形成主要由嘴唇、顎和舌頭的位置決定,由聲道形狀的不斷改變而發出不同的音。

語音是從肺部撥出的氣流通過在喉頭至嘴唇的器官的各種作用發出的,作用方式有三種,第一是把從肺部撥出的直氣流變為音源即變為交流的斷續流或者亂流;第二是對音源起共振和**振的作用,使它帶有音色;第三是從嘴唇或鼻孔向空間輻射的作用。下圖為發音器官的部位和名稱:

人的聽覺系統是乙個十分巧妙的音訊訊號處理器,結構圖如下:

其中1-耳翼 2-顳骨 3-鼓膜 4-錘骨 5-詀骨 6-半規管 7-鐙骨 8-前庭窗 9-鼓窗 10-耳蝸 11-耳蝸神經 12-外耳道 13-前庭 14-腮腺 15-內耳道 16-咽鼓管

當聲音經外耳傳入中耳時,鐙骨的運動引起耳蝸內流體壓強的變化,從而引起行波沿基底膜的傳播。從這個意義上講,耳蝸就像乙個頻譜分析儀,將複雜的訊號分解成各種頻率分量。

心理聲學中的聽覺掩蔽效應指,乙個強訊號附近,弱訊號將變得不可聞,被掩蔽掉了,如工廠機器音會淹沒人的談話聲音,此時,被掩蔽掉的不可聞訊號的最大聲壓級稱為掩蔽門限,在這個閾值以下的聲音將被掩蔽掉。下圖為乙個掩蔽曲線:

音訊基礎知識

1.音效卡的工作原理 音效卡的工作原理其實很簡單 我們知道,麥克風和喇叭所用的都是模擬訊號,而電腦所能處理的都是數碼訊號,兩者不能混用,音效卡的作用就是實現兩者的轉換。從結構上分,音效卡可分為模數轉換電路和數模轉換電路兩部分,模數轉換電路負責將麥克風等聲音輸入裝置採到的模擬聲音頻號轉換為電腦能處理的...

音訊基礎知識

聲音的三要素 頻率,振幅,波形 頻率代表音階的高低 女生的音階高,男生偏低 頻率越高,波長就會越短.振幅代表響度 波形代表音色 音訊取樣 對模型訊號進行取樣,取樣可以理解為在時間軸上對訊號進行數位化 ad轉換 按比聲音最高頻率高2倍以上的頻率對聲音進行取樣.取樣率 聲音頻率為500次,取樣1000次...

語音頻號處理知識點

語音頻號處理過程的總體結構 語音輸入 預處理 數位化 特徵提取 預處理 對訊號適當放大和增益控制,並進行反混疊濾波來消除工頻訊號干擾 數位化 進行a d轉換 特徵提取 用反映語音頻號特點的若干引數來代表語言 共振峰 當把聲道看成乙個發音的腔體的時候,激勵的頻率達到他的固有頻率,則聲道會以最大的振幅來...