聲帶每開啟和關閉一次的時間就是基音週期(pitch period),倒數即為音訊頻率(pitch frequency)[1]。
基音頻率取決於聲帶的大小、厚薄、鬆緊程度,以及聲門上下之間的氣壓差的效應等。最低可達80hz,最高可達500hz,老年男性偏低,小孩女性偏高。它反映了聲調的變化。
常用的有自相關方法和倒譜方法
autocorrelation function(acf)運算可以用於尋找週期訊號的週期。因為週期訊號的自相關函式也是週期訊號,而且週期一致。比如yin演算法[2]就是使用的自相關方法。
r t(
τ)=∑
j=t+
1t+w
xjxj
+τr_t(\tau)=\sum_^x_jx_
rt(τ)
=j=t
+1∑t
+wx
jxj
+τw表示相關函式的視窗,τ
\tau
τ表示相關函式的延時。
world裡面使用dio[3][4]提取pitch,相比之前的方法速度更快。主要分為三步:
使用不同截止頻率的低通濾波器進行濾波
如果濾波後的訊號只包含乙個週期t
0t_0
t0的訊號,即為pitch。由於pitch未知,會使用多個不同截止頻率的濾波器。
計算f0候選以及置信度
取四個週期,計算每個週期的zero-crossing/peak/dip intervals應該一致,以此為標準計算置信度。
選取置信度最高的頻率作為最後的pitch
語音合成vocoder(一) 概況
question1 vocoder在合成中的角色?語音合成主要有波形拼接和引數合成兩種方法 1 使用原始語音波形替代引數,合成的語音清晰自然,質量相比於引數合成方法要好。psola pitch synchronous overlap add 演算法可以對拼接單元的韻律特徵進行調整。提取引數 hmm建...
語音合成 什麼是語音合成?
1.什麼是語音合成?2.psola演算法 3.基於hmm的引數合成 4.未來有哪些趨勢?本系列時常補充和糾錯 1.1 什麼是語音合成?語音合成則是乙個相反的過程,語音合成要求使用者輸入一段文字,系統負責將文字轉換成一段流暢自然的語音。其實,語音合成在生活中的應用也是隨處可見,只是我們有時候會將其忽略...
語音合成技術
語音合成又稱文語轉換 text to speech 簡稱tts,指通過機械的 電子的方法生成語音的技術。隨著科技的發展,合成語音的自然度和音質均得到了明顯的改善。目前,語音合成技術在我們生活中具有廣泛的應用,如電子閱讀 車載語音導航 銀行醫院排號系統 交通播報等等,這些應用場景都離不開語音合成。簡單...