語音合成vocoder(二) 基頻引數

2021-08-01 06:25:07 字數 928 閱讀 2460

聲帶每開啟和關閉一次的時間就是基音週期(pitch period),倒數即為音訊頻率(pitch frequency)[1]。

基音頻率取決於聲帶的大小、厚薄、鬆緊程度,以及聲門上下之間的氣壓差的效應等。最低可達80hz,最高可達500hz,老年男性偏低,小孩女性偏高。它反映了聲調的變化。

常用的有自相關方法和倒譜方法

autocorrelation function(acf)運算可以用於尋找週期訊號的週期。因為週期訊號的自相關函式也是週期訊號,而且週期一致。比如yin演算法[2]就是使用的自相關方法。

r t(

τ)=∑

j=t+

1t+w

xjxj

+τr_t(\tau)=\sum_^x_jx_

rt​(τ)

=j=t

+1∑t

+w​x

j​xj

+τ​w表示相關函式的視窗,τ

\tau

τ表示相關函式的延時。

world裡面使用dio[3][4]提取pitch,相比之前的方法速度更快。主要分為三步:

使用不同截止頻率的低通濾波器進行濾波

如果濾波後的訊號只包含乙個週期t

0t_0

t0​的訊號,即為pitch。由於pitch未知,會使用多個不同截止頻率的濾波器。

計算f0候選以及置信度

取四個週期,計算每個週期的zero-crossing/peak/dip intervals應該一致,以此為標準計算置信度。

選取置信度最高的頻率作為最後的pitch

語音合成vocoder(一) 概況

question1 vocoder在合成中的角色?語音合成主要有波形拼接和引數合成兩種方法 1 使用原始語音波形替代引數,合成的語音清晰自然,質量相比於引數合成方法要好。psola pitch synchronous overlap add 演算法可以對拼接單元的韻律特徵進行調整。提取引數 hmm建...

語音合成 什麼是語音合成?

1.什麼是語音合成?2.psola演算法 3.基於hmm的引數合成 4.未來有哪些趨勢?本系列時常補充和糾錯 1.1 什麼是語音合成?語音合成則是乙個相反的過程,語音合成要求使用者輸入一段文字,系統負責將文字轉換成一段流暢自然的語音。其實,語音合成在生活中的應用也是隨處可見,只是我們有時候會將其忽略...

語音合成技術

語音合成又稱文語轉換 text to speech 簡稱tts,指通過機械的 電子的方法生成語音的技術。隨著科技的發展,合成語音的自然度和音質均得到了明顯的改善。目前,語音合成技術在我們生活中具有廣泛的應用,如電子閱讀 車載語音導航 銀行醫院排號系統 交通播報等等,這些應用場景都離不開語音合成。簡單...