聲學特徵(三) pitch

2021-07-11 10:37:27 字數 1440 閱讀 8237

pitch跟聲音的基頻fundamental frequency(f0)有關,反應的是音高的資訊,即聲調。計算f0也被稱為『『pitch detection algorithms(pda)。

sphinx使用的yin演算法提取pitch特徵,相對簡單而且進行了定點化。

yin來自於「陰陽」哲學,寓意在autocorrelation和cancellation之間的變換。yin演算法的演化流程:

autocorrelation function(acf)運算可以用於尋找週期訊號的週期。因為週期訊號的自相關函式也是週期訊號,而且週期一致。

r t(

τ)=∑

j=t+

1t+w

xjxj

+τ(1

)r_t(\tau)=\sum_^x_jx_\ \ \ \ \ \ \ \ \ \ \ \ \ (1)

rt​(τ)

=j=t

+1∑t

+w​x

j​xj

+τ​(

1)w表示相關函式的視窗,τ

\tau

τ表示相關函式的延時。

d t(

τ)=∑

j=1w

(xj−

xj+τ

)2d_t(\tau)=\sum_^(x_j-x_)^2

dt​(τ)

=j=1

∑w​(

xj​−

xj+τ

​)2yin演算法使用該函式替換上面的第一步的自相關函式,優勢在於:

當時域訊號隨著時間幅值變大的時候,導致自相關函式的峰值也會逐漸變大,最大的峰值就會後移,從而導致週期變長。而對於差分函式,幅值的變化會導致所有的τ

\tau

τ對應的差分值都會改變,減弱了這種影響。

d t′

(τ)=

1 & \quad \text \tau=0\\ \frac\sum_^d_t(j)} & \quad \text\\ \end

dt′​(τ

)=/2, t+t_/2]

[t−tma

x​/2

,t+t

max​

/2]尋找極小值對應的時間作為週期,tma

xt_tmax

​是最大期望週期值。

總體上,yin演算法使用d′(

τ)d'(\tau)

d′(τ

)進行週期估計,同時設定乙個絕對門限,在找得到週期值附近重新進行搜尋獲得最優值。

ASR 聲學特徵提取

方法二 深度學習特徵提取 通過取樣將連續的模擬訊號轉換為離散的數碼訊號,便於後續的數位化處理 正常的音訊一般低頻成分比高頻成分多,通過預加重提公升語音頻號的高頻部分,使頻譜光滑 1.目的 增加高頻成分,使頻譜光滑 2.方法 3.效果圖 數位化的語音頻號是乙個不平穩的時變訊號,具有短時平穩性。因此在對...

語音情感識別常見的聲學特徵

1.韻律特徵 基於基音頻率的特徵,包含jitter,基音頻率的包絡,基音頻率的線性 係數。共振峰特徵,包含一階共振峰,二階共振峰,以及共振峰的頻寬等。基於能量的特徵,包含 shimmer,4 階legendre 引數等。時間特徵,包含說話部分和不說話部分的比值,最長說話的時間等。發音清晰程度的特徵。...

和聲學學習 大調副三和弦

停了兩天更新,因為神仙屬九之後的十三和弦以我淺薄的 造詣就聽不懂了。完全不想回憶起那個奇怪的音效所以一直沒動力更新。23333 這次我們跳過十三來總結一下大調副三和弦。介紹 調式中和弦的功能組一共可以分三類 下屬功能組 主功能組和屬功能組。每個和弦都可以被收錄進調式的不同功能組之中,其中每乙個功能都...