語音轉換概述

2021-10-24 17:05:02 字數 1363 閱讀 3295

一、概念

指將乙個人(源說話人)的聲音個性化特徵(如頻譜、韻律等)通過「修改變換」,使之聽起來像另外乙個人(目標說話人)的聲音,同時保持說話內容資訊不變。廣義上把改變語音中說話人個性特徵的語音處理技術統稱為語音轉換。

廣義的語音轉換可分為非特定人語音轉換和特定人語音轉換。

二、基本原理

主要個性特徵引數:聲道譜,共振峰頻率,基音頻率等。

訓練:特徵提取,對映,模型訓練

轉換:待轉換源語音特徵提取,對映,用轉換模型轉換,將轉換後特徵語音合成

一般,乙個完整的語音轉換方案包括:

三、典型方法

語音轉換研究的相關工作最早可追溯至 20 世紀六七十年代,至今已經有 50 多年的研究歷史,但真正受到學術界和產業界廣泛關注則是近十多年的事情。近年來,語音頻號處理和機器學習等技術的進步,以及大資料獲取能力和大規模計算效能的提高有力推動了語音轉換技術的研究及發展,特別是基於人工神經網路的語音轉換方法的興起,出現了序列到序列、波形到波形等語音轉換方法。

(目前語音轉換研究主要集中在對聲道譜的建模和轉換規則方面,而對韻律的建模和轉換研究尚不夠充分。)

1.基於聲道譜轉換

常用引數:幅度譜、對數譜、倒譜、線性**係數等基本引數以及動態差分、

本徵空間短時譜等變換引數。

目前,對聲道譜轉換模型的研究通常是在對源和目標說話人語音進行統計分析的基礎上,通過引數對映方式實現。聲道譜轉換研究經歷了從離散對映到連續對映、從單幀對映到音段對映、從線性對映到非線性對映、從單一方法到多方法融合的過程,轉換效能不斷提公升。訓練條件也從大資料量、平行語音到小資料量、非平行語音過渡。聲道譜轉換是語音轉換中的重點和難點,也是目前語音轉換需重點解決的問題。

(1)基於碼書對映的轉換方法:abe 等於 1988 年首次提出。2015 年,胡芳等提出基於碼書對映的語音轉換改進演算法,通過基於轉換權**重構碼書對映關係的方法提公升轉換語音質量。

總結:多網路模型融合的方法日益成為主流的轉換方法,因此如何基於小樣本資料,高效率實時實現聲道譜轉換,在既保證轉換語音的高自然度和高相似度的同時,又保證轉換演算法的魯棒性是乙個需要重點關注的問題。

2.基於韻律轉換

除了聲道譜轉換外,激勵源轉換對整個語音轉換系統效能也舉足輕重,主要包括韻律和非週期分量的轉換。非週期分量作為激勵的一部分,不少轉換模型直接將其複製不做任何變換。

而韻律在反映目標說話人特徵、情感狀態、口音等特徵上具有重要作用。韻律建模通常是通過基頻包絡來實現,當前的研究主要體現在情感轉換方面。由於韻律資訊的複雜性及不穩定性,所以目前韻律轉換主要集中在對基頻包絡 f0的轉換。

訊飛語音 文字轉換語音

1.首先在訊飛開放平台註冊賬號 然後新增應用 把libs下的資源放入到你的工程的libs下面 手動新增到依賴庫add as library 你還需要把assets資料夾複製到main下面 在專案build.gradle檔案的android 內,配置下面一段 同步一下gradle檔案 sourcese...

語音程式設計之Speech SDK概述 4

2 語音識別 api 正如ispvoice 是主要的語音合成介面一樣,isprecocontext 是語音識別的主要介面。與 ispvoice 一樣,它也是一種 ispeventsource 介面,提供了為請求的語音識別事件接收通知訊息的基本載體。有兩種不同的語音識別引擎 isprecognizer...

Cocoa文字語音轉換例子

在cocoa中實現文字語音轉換 text to speech 是很簡單的事情。當然,目前只支援英文。曾經mac os 9的時候,蘋果官方提供過中文tts支援,不過可惜的是並沒有移植到osx中。首先定義 nsspeechsynthesizer synth nsspeechsynthesizerallo...