語音轉換概述

一、概念

指將乙個人（源說話人）的聲音個性化特徵（如頻譜、韻律等）通過「修改變換」，使之聽起來像另外乙個人（目標說話人）的聲音，同時保持說話內容資訊不變。廣義上把改變語音中說話人個性特徵的語音處理技術統稱為語音轉換。

廣義的語音轉換可分為非特定人語音轉換和特定人語音轉換。

二、基本原理

主要個性特徵引數：聲道譜，共振峰頻率，基音頻率等。

訓練：特徵提取，對映，模型訓練

轉換：待轉換源語音特徵提取，對映，用轉換模型轉換，將轉換後特徵語音合成

一般，乙個完整的語音轉換方案包括：

三、典型方法

語音轉換研究的相關工作最早可追溯至 20 世紀六七十年代，至今已經有 50 多年的研究歷史，但真正受到學術界和產業界廣泛關注則是近十多年的事情。近年來，語音頻號處理和機器學習等技術的進步，以及大資料獲取能力和大規模計算效能的提高有力推動了語音轉換技術的研究及發展，特別是基於人工神經網路的語音轉換方法的興起，出現了序列到序列、波形到波形等語音轉換方法。

（目前語音轉換研究主要集中在對聲道譜的建模和轉換規則方面，而對韻律的建模和轉換研究尚不夠充分。）

1.基於聲道譜轉換

常用引數：幅度譜、對數譜、倒譜、線性**係數等基本引數以及動態差分、

本徵空間短時譜等變換引數。

目前，對聲道譜轉換模型的研究通常是在對源和目標說話人語音進行統計分析的基礎上，通過引數對映方式實現。聲道譜轉換研究經歷了從離散對映到連續對映、從單幀對映到音段對映、從線性對映到非線性對映、從單一方法到多方法融合的過程，轉換效能不斷提公升。訓練條件也從大資料量、平行語音到小資料量、非平行語音過渡。聲道譜轉換是語音轉換中的重點和難點，也是目前語音轉換需重點解決的問題。

（1）基於碼書對映的轉換方法：abe 等於 1988 年首次提出。2015 年，胡芳等提出基於碼書對映的語音轉換改進演算法，通過基於轉換權**重構碼書對映關係的方法提公升轉換語音質量。

總結：多網路模型融合的方法日益成為主流的轉換方法，因此如何基於小樣本資料，高效率實時實現聲道譜轉換，在既保證轉換語音的高自然度和高相似度的同時，又保證轉換演算法的魯棒性是乙個需要重點關注的問題。

2.基於韻律轉換

除了聲道譜轉換外，激勵源轉換對整個語音轉換系統效能也舉足輕重，主要包括韻律和非週期分量的轉換。非週期分量作為激勵的一部分，不少轉換模型直接將其複製不做任何變換。

而韻律在反映目標說話人特徵、情感狀態、口音等特徵上具有重要作用。韻律建模通常是通過基頻包絡來實現，當前的研究主要體現在情感轉換方面。由於韻律資訊的複雜性及不穩定性，所以目前韻律轉換主要集中在對基頻包絡 f0的轉換。

語音轉換概述

訊飛語音文字轉換語音

語音程式設計之Speech SDK概述 4

Cocoa文字語音轉換例子

語音轉換概述

訊飛語音 文字轉換語音

語音程式設計之Speech SDK概述 4

Cocoa文字語音轉換例子

相關推薦

訊飛語音文字轉換語音