pitch跟聲音的基頻fundamental frequency(f0)有關,反應的是音高的資訊,即聲調。計算f0也被稱為『『pitch detection algorithms(pda)。
sphinx使用的yin演算法提取pitch特徵,相對簡單而且進行了定點化。
yin來自於「陰陽」哲學,寓意在autocorrelation和cancellation之間的變換。yin演算法的演化流程:
autocorrelation function(acf)運算可以用於尋找週期訊號的週期。因為週期訊號的自相關函式也是週期訊號,而且週期一致。
r t(
τ)=∑
j=t+
1t+w
xjxj
+τ(1
)r_t(\tau)=\sum_^x_jx_\ \ \ \ \ \ \ \ \ \ \ \ \ (1)
rt(τ)
=j=t
+1∑t
+wx
jxj
+τ(
1)w表示相關函式的視窗,τ
\tau
τ表示相關函式的延時。
d t(
τ)=∑
j=1w
(xj−
xj+τ
)2d_t(\tau)=\sum_^(x_j-x_)^2
dt(τ)
=j=1
∑w(
xj−
xj+τ
)2yin演算法使用該函式替換上面的第一步的自相關函式,優勢在於:
當時域訊號隨著時間幅值變大的時候,導致自相關函式的峰值也會逐漸變大,最大的峰值就會後移,從而導致週期變長。而對於差分函式,幅值的變化會導致所有的τ
\tau
τ對應的差分值都會改變,減弱了這種影響。
d t′
(τ)=
1 & \quad \text \tau=0\\ \frac\sum_^d_t(j)} & \quad \text\\ \end
dt′(τ
)=/2, t+t_/2]
[t−tma
x/2
,t+t
max
/2]尋找極小值對應的時間作為週期,tma
xt_tmax
是最大期望週期值。
總體上,yin演算法使用d′(
τ)d'(\tau)
d′(τ
)進行週期估計,同時設定乙個絕對門限,在找得到週期值附近重新進行搜尋獲得最優值。
ASR 聲學特徵提取
方法二 深度學習特徵提取 通過取樣將連續的模擬訊號轉換為離散的數碼訊號,便於後續的數位化處理 正常的音訊一般低頻成分比高頻成分多,通過預加重提公升語音頻號的高頻部分,使頻譜光滑 1.目的 增加高頻成分,使頻譜光滑 2.方法 3.效果圖 數位化的語音頻號是乙個不平穩的時變訊號,具有短時平穩性。因此在對...
語音情感識別常見的聲學特徵
1.韻律特徵 基於基音頻率的特徵,包含jitter,基音頻率的包絡,基音頻率的線性 係數。共振峰特徵,包含一階共振峰,二階共振峰,以及共振峰的頻寬等。基於能量的特徵,包含 shimmer,4 階legendre 引數等。時間特徵,包含說話部分和不說話部分的比值,最長說話的時間等。發音清晰程度的特徵。...
和聲學學習 大調副三和弦
停了兩天更新,因為神仙屬九之後的十三和弦以我淺薄的 造詣就聽不懂了。完全不想回憶起那個奇怪的音效所以一直沒動力更新。23333 這次我們跳過十三來總結一下大調副三和弦。介紹 調式中和弦的功能組一共可以分三類 下屬功能組 主功能組和屬功能組。每個和弦都可以被收錄進調式的不同功能組之中,其中每乙個功能都...