語音頻號處理共振峰

2021-09-29 05:18:04 字數 2689 閱讀 1914

首先,什麼是語譜圖。最通常的,就是語音短時傅利葉變換的幅度畫出的2d圖。之所以是通常的,是因為可以不是傅利葉變換。「窄帶」,顧名思義,頻寬小,則時寬大,則短時窗長,窄帶語譜圖就是長窗條件下畫出的語譜圖。「寬頻」,正好相反。至於「橫豎條紋」,窄帶語譜圖的帶寬窄,那麼在頻率上就「分得開」,即能將語音各次諧波「看得很清楚」,即表現為「橫線」。「橫」就體現出了頻率解析度高。解析度可以直觀的看做「分開能力」。「頻率解析度」高就是在頻率上將各次諧波分開的能力高,表現為能分辨出各次諧波的能力高,頻率解析度越高,越容易分辨各次諧波。類似的,寬頻語譜圖的時寬窄,那麼在時間上就「分得開」,即能將語音在時間上重複的部分「看得很清楚」,即表現為「豎線」。「豎」就體現出了時間解析度高。時間解析度越高,譜圖上的豎線看得越清楚。圖1和圖2分別示出了一條語音句子的窄帶語譜圖和寬頻語譜圖。短時窗長度分別是20ms和2ms。

圖1是一條語音及其窄帶語譜圖。上圖是語音時間波形,下圖是上圖的窄帶語譜圖

圖2同一條語音及其寬頻語譜圖。上圖是語音時間波形,下圖是上圖的寬頻語譜圖

圖1虛框框住的部分就是一條橫條紋,整個譜圖中有非常多的這種橫條紋。圖2虛框框住的部分,在小圖中清晰的顯示出了一條一條的「豎線」,被框住的有27條豎線。

基音週期表示聲帶的震動週期,每隔這麼長時間(震動週期),有乙個氣流通過,「每隔」就體現了週期性,這就是基音週期,那麼譜圖上就應該有這個頻率的訊號分量,而且這個頻率的幅度(能量)不應該很小,因為每隔一段時間「就有」一團能量通過聲帶。所以基音頻率所在的成分在窄帶語譜圖上應該是所有橫條紋中頻率範圍最低的那條。在圖1中,用虛線框框住的部分就表示基音頻率成分,與其在同一水平線上的條紋都表示該時刻的基音頻率成分,這條條紋對應的縱軸刻度值就表示基音頻率。從圖1小圖可估計基音頻率大約在250hz左右,基音頻率略有波動,0.5s處大約是240hz。其他橫條紋就是各次諧波,這些諧波中有些地方顏色比同時刻其附近其他橫條紋顏色要深,這些顏色深的條紋表示共振峰。有些時刻,顏色較區域性附近深的條紋不止一條,這些深色條紋組成了各次共振峰,如第

一、第二、第三共振峰。圖2,寬頻語譜圖的基音頻率和共振峰就不清晰了。但是其仍可以看出基音週期,圖2小圖具有明顯的豎線,兩條豎線之間的時間就表示基音週期。在0.44s到0.54s時間段內大約有25條豎線,即24個間隔,則基音週期可估計為(0.54-0.44)/24=4.17ms,則基音頻率估計為240hz。

選取0.5s處的一段語音片段,長度為20ms。其時域波形和頻譜如圖3。

圖3 0.5s處語音片段時域波形及其頻譜

圖3左圖,用紅圈圈示的尖峰用於估計基音週期,雙向箭頭表示時間範圍內5個圈共4個相似的波段,這4段就表示4個基音週期,則可估計基音週期約為4.25ms,則基音頻率約為235.2941hz。圖3右圖,頻譜具有明顯小尖峰,這些尖峰在低頻部分(可認為語音頻率3400hz內)比較有規律且平滑,高頻出現小幅度的「雜亂」,這些「雜亂」表示雜訊,**有錄音裝置及量化雜訊等(雖然幅度很小,甚至根本就「聽」不出來,但存在是事實)。這些尖峰就是各次諧波,從左往右一次是1次、2次、3次……諧波。其中最左邊的尖峰對應基音頻率,其橫座標對應的值表示基音頻率,從小圖可看到大約為234.83hz。利用各次諧波可以得到更精確的估計,圖中用紅圈表示用於估計基頻的諧波,共選取了15個,估計出基頻為234.8337hz。

基音頻率體現的是聲源的資訊,而共振峰體現的是聲道的資訊。為便於比較和觀察,將圖3這個語音片段的源和系統分離,分別展示源的頻譜和聲道的頻譜,觀察一致性。圖4、5顯示的是源的頻譜、聲道的頻譜、語音的頻譜及共振峰的位置資訊,圖5去掉了小圖。粉紅線是源資訊的頻譜,紅線是語音的頻譜,黑色虛線是語音頻譜的包絡,藍線是聲道頻譜,藍色圈圈標示出聲道頻譜的峰值點,粉紅虛豎線顯示這些峰值點的位置。根據語音產生的源-濾波器模型及源、系統的卷積解釋,語音頻譜的包絡顯示的是聲道的資訊,而小尖峰顯示源的資訊,如諧波。可看到粉紅線和紅線二者的峰值的位置正好一一對應,體現了源的資訊,而且粉紅線(源)明顯沒有包絡峰值,說明聲道的資訊被濾除。同樣,藍線沒有了小尖峰,即濾掉了源的資訊。並且聲道的峰值點位置與語音頻譜包絡的峰值位置也正好一一對應。藍圈圈的個數表示共振峰的個數,共有4個,從左至右分別稱為f1、f2、f3、f4,(f0是基音頻率)。它們橫軸值表示共振峰頻率值,某共振峰頻寬就表示該共振峰所佔頻頻寬度。這個圖還暗示了另乙個有趣的事實,源所佔的頻率範圍和聲道所佔的頻率範圍是一樣的,在頻域利用高通或低通或帶通的方法分離源和系統是行不通的。

圖4語音片段時域波形及其源、聲道和語音頻譜。

圖5語音片段時域波形及其源、聲道和語音頻譜。去掉小圖(小圖遮擋了部分資訊)

基音頻率和共振峰是能從譜圖、頻譜上看出來的語音的最基本的資訊,當然可以看出其他更多的資訊。比如,窄帶語譜圖上基本上可以發現,低頻部分,橫條紋比較直,而高頻部分,條紋變「彎」了,這表示什麼?圖1小圖可明顯看到,基音頻率也不是不變的,其也具有波動,我們可以人為的將基頻線連線起來為一條曲線,這稱為基音跟蹤。共振峰表示「諧振」,頻譜上表示為頻譜包絡(其實是上包絡)的峰值,那麼頻譜下包絡的谷值點就表示「反諧振」。頻譜的「尖峰」顯示的是源的資訊,小尖包突起是週期性的,是有用的,那麼「雜亂」的源頭是非週期性的,這在語音轉換中是一種很重要的資訊。

語音頻號處理

濁音的聲帶振動基本頻率 fundamental frequency 稱為基音頻率。濁音的基音頻率 pitch 語音生成系統和語音感知系統 語音頻號生成的數學模型 語音頻號的特性分析 語音頻號處理是以語音語言學和數字訊號處理為基礎的綜合性學科,是用數字訊號處理技術對語音頻號進行處理的一門學科。說話人識...

語音頻號的預處理

2014年09月05日 綜合 共 1116字 字型大小 小 中 大 回顧上兩次的內容 上次主要說了音訊檔案的讀取 主要是matlab和c語言 感覺有幾個概念有點混淆 語音 音訊 語音英文是speech,音訊是audio,是music。據我的理解是音訊包括語音和 不知道這麼理解對不?此外,讀取音訊其實...

語音頻號處理概述及流程

一 語音頻號處理的三個主要方向。1,語音合成。語音合成的是為了讓計算機產生高質量的 高自然度的連續語音。計算機語音合成系統又稱文語轉換系統 tts 主要是將文字輸出語音。發展過程 共振峰合成 lpc合成 psola技術。2,語音編碼。在語音頻號傳輸過程中,頻率資源的合理使用,顯得很珍貴,所以在傳輸之...