語音合成vocoder(一) 概況

2021-08-01 06:25:07 字數 1387 閱讀 4206

question1: vocoder在合成中的角色???

語音合成主要有波形拼接和引數合成兩種方法[1]。

使用原始語音波形替代引數,合成的語音清晰自然,質量相比於引數合成方法要好。psola(pitch synchronous overlap add)演算法可以對拼接單元的韻律特徵進行調整。

提取引數->hmm建模->合成引數->波形重建

合成中的vocoder的作用主要是:提取語音頻號的相關引數;根據相關引數合成出最終的語音。一些vocoder[2]如下:

world是基於vocoder的語音合成工具

question2: vocoder為什麼可以用以上的三個引數來進行語音合成???

上圖基於人發聲機理的經典源-濾波器(source-filter)模型,其中源激勵部分對應於肺部的氣流和聲帶共同作用形成的激勵,聲道諧振部分對應於聲道的調音運動。

兩種建模方法:

聲帶激勵分為兩類,可以產生清音(/p/ /b/)或者濁音(/m/ /a/)。子音有清有濁,而多數語言中母音均為濁音。

上面的二元激勵模型將複雜的產生激勵過程簡單的劃為兩部分,大大簡化了聲門激勵的特徵,但是合成語音的自然度較低。

straight引入了混合激勵,濁音激勵由分別通過高低通濾波器的隨機雜訊序列和脈衝序列相加,清音的激勵源由雜訊序列疊加乙個位置隨機的正脈衝並跟隨乙個負脈衝構成的脈衝對形成的爆破脈衝。[3]

混合激勵可以通過aperiodicity來控制濁音段中的週期激勵和雜訊成分的相對比重

音高跟聲波的基頻f0有關,影響聲音的聲調(漢語的四種聲調),跟聲帶震動的快慢有關

響度跟聲波的振幅有關,聲音的大小

泛音假設某個音的基頻為f,則頻率為2f的音稱為第二泛音,頻率為3f的音稱為第三泛音

音色基音和不同泛音的能量比例關係是決定乙個音的音色的核心因素。跟聲帶的震動頻率、發音器官的送氣方式、聲道的形狀尺寸有關。

共振峰共振峰是用來描述聲源內部的共振,特別是對樂器而言,指的是共鳴箱內的共振。

pitch跟聲帶有關(聲帶震動快慢),共振峰跟口腔的固有頻率有關(不同的口型和舌位對應不同的共振峰)。

語音合成vocoder(二) 基頻引數

聲帶每開啟和關閉一次的時間就是基音週期 pitch period 倒數即為音訊頻率 pitch frequency 1 基音頻率取決於聲帶的大小 厚薄 鬆緊程度,以及聲門上下之間的氣壓差的效應等。最低可達80hz,最高可達500hz,老年男性偏低,小孩女性偏高。它反映了聲調的變化。常用的有自相關方法...

關於語音合成的一點思考

突然之間就對文字轉化語音 text to speech 產生了好奇。怎麼可以這樣呢?它的原理是什麼?瀏覽了一下官方的權威的解說,發現還是似懂非懂。沒關係,它成功地勾起了我的興趣。順便說一下,不小心瞄到了科大的聲學不錯,我們學校的光學也不錯,嘿嘿,不知道它倆是否是絕配哦!這個技術大概已經很成熟了,網上...

一分鐘讀懂相容測試報告(一) 概況篇

在wetest深度相容測試上線之後,為大量手遊及應用挖掘了相容問題,為測試開發同學提供了極大的便利。為了能夠讓測試開發同學能夠迅速的了解測試後的結果,您是否真的讀懂了wetest的相容報告?是否了解具體問題的準確定位?通過的機型數 測試的機型總數 描述的是應用在數百部機型上,通過機型數占比,是衡量應...