亞馬遜Alexa借助神經網路生成播音員聲音

2021-09-17 08:21:38 字數 509 閱讀 7603

亞馬遜最近宣布開發定製的alexa語音,適合用於閱讀新聞。早期的實現是通過連線小的音訊片段來產生完整的句子,從而實現文字到語音功能。亞馬遜正在使用生成神經網路來合成一種更自然的語音,而且可以根據文字的上下文提供不同的語音風格。

該系統的第乙個應用演示了一種聽起來更自然的聲音。亞馬遜的alexa將在未來幾周內使用新的聲音。通過從新聞頻道捕獲音訊片段,然後利用機器學習來檢測它們閱讀文字的方式,以此來獲得類似新聞播報員的聲音。這些細微差別很難通過確定性演算法識別出來,因此需要採用統計方法來檢測和應用它們。亞馬遜使用了幾個小時長度的資料來教授機器學習演算法如何讓聲音聽起來更像是乙個新聞播報員的聲音,這意味著獲得不同風格的聲音指日可待。

為了獲得像新聞播音員那樣的聲音,一種方法是招募語音人才,讓他們以自己的風格讀出聲音,將他們的錄音分成小的語音樣本,並進行合成。這是非常耗時的,而且成本很高。文字到語音神經網路系統的創新之處在於它採用了「樣式編碼」模組來識別語音樣本的風格。系統將大量中性風格的語音資料與帶有風格的幾小時補充資料相結合。它可以模擬語音的各個方面,如韻律和其他特徵。

神經網路 卷積神經網路

這篇卷積神經網路是前面介紹的多層神經網路的進一步深入,它將深度學習的思想引入到了神經網路當中,通過卷積運算來由淺入深的提取影象的不同層次的特徵,而利用神經網路的訓練過程讓整個網路自動調節卷積核的引數,從而無監督的產生了最適合的分類特徵。這個概括可能有點抽象,我盡量在下面描述細緻一些,但如果要更深入了...

神經網路 卷積神經網路

1.卷積神經網路概覽 來自吳恩達課上一張,通過對應位置相乘求和,我們從左邊矩陣得到了右邊矩陣,邊緣是白色寬條,當畫素大一些時候,邊緣就會變細。觀察卷積核,左邊一列權重高,右邊一列權重低。輸入,左邊的部分明亮,右邊的部分灰暗。這個學到的邊緣是權重大的寬條 都是30 表示是由亮向暗過渡,下面這個圖左邊暗...

神經網路簡介 多層神經網路

如上圖所示,該神經網路有三層。我們標記第一層 也就是輸入層 為a 1 第一層與第二層連線權重為w 1 然後第一層輸入與第一層權重的線性和為z 1 第一層神經元個數為n 1 並依次標記剩餘網路層。可以看出,存在 z l j i 1 n l a l i w l i,j a l w l j a l 1 f...