AI助力語音轉殖，人和自己「對話」的障礙在哪？

文 | 王志

** | 智慧型相對論（aixdlun）

如果有一天，你可以將你的聲音通過人工智慧技術「轉殖」出來，而且你還能和「你」進行各種對話，你是否願意嘗試？

這個場景並不遙遠，不久前，

「ai first

」的谷歌表示，其最新版本的人工智慧語音合成系統——tacotron2合成出來的語音幾乎和真人聲音一模一樣。它擁有兩個深度神經網路，第乙個能夠將文字轉化為頻譜圖，第二個則負責將頻譜圖生成相應的音訊。

語音轉殖技術是什麼？又能做些什麼？

語音合成的技術有三種，但只有ai技術才能稱為語音轉殖

最早的語音合成技術通過預先錄製好的字詞、短句來實現的，把各個部分串成一行，以此產生完整的句子。生活中各種服務**的自助語音系統就是用這種方式實現的，所以會經常存在卡頓，音色不一樣等問題，語氣也很冰冷。

第二種手段雖然能夠使語音更加自然，但其中也需要大量的人工處理，首先是製作語音庫，確定音色、風格、特性、角色等要求後，投入音庫生產線，設計錄音指令碼、訓練錄音資源、進行效果優化，在輸出的時候還要進行各類語言處理，包括文字規整、詞的切分，然後是韻律處理，為其劃出音段特徵，如音高、音長和音強等等，使合成的語音給人的感覺更加自然些。

但這類合成系統因為進行韻律**處理方面的工作量巨大、所以也存在表現能力不足等問題，如合成語音對不同情感的表達會不夠恰當，使得合成語音聽起來缺乏人情味。而語音合成的技術發展不僅要讓說話的聲音達到真人水準，也應當在情感表達方面有所突破，使語音互動帶有情感，達到更好的交流體驗。

其中「說話人適應」是使用多個轉殖樣本，基於反向傳播的優化方法對多個說話人語音生成模型做精細調節。這個方法可以只作用於低維度的說話人嵌入，或者作用於整個模型；在低緯度的嵌入時，每個說話人所需的參數量比較少，而且需要較長的轉殖時間，生成語音的質量也會差一些。

其中「說話人編碼」則需要訓練乙個單獨的模型，用它直接從語音樣本中推斷出乙個新的嵌入資料，然後再把這個嵌入資料用在多個講話人語音生成的模型中。而且這個方法還帶有時域和頻域的處理模組，可以從音訊樣本分析中提取到有關說話人的身份資訊，然後用注意力模組把各種資訊以最優的方式結合起來。這個方法的好處是轉殖耗時少、標明說話人資訊所需要的引數少，使得這種方法在輸入資源有限的場景中也能夠使用。

語音轉殖的功與過

在人機互動的個性化場景中，研究人員預期語音轉殖可能會有很重要的作用，如可以用來訂製個人ai助手、讀書音訊以及殘疾人語音系統等，且對有語言障礙人來說，這個程式能幫助他們練習發聲，使他們更容易與人交流，這種過程就像是在和乙個善解人意的朋友在聊天一樣，可能會成為乙個重要的社交工具。

而在心理醫療領域，如果能復原出逝者的聲音，這對於痛失親人後在心理上造成了創傷的人們來說，也無疑是巨大的安慰。

不過語音轉殖也會帶來一些麻煩，它可能會被用來對公眾人物進行惡意攻擊；也可能會使聲紋識別形同虛設，因為據《新科學家》報道，使用人工智慧技術做出聲音識別軟體，在測試中，準確率已經超過了95%；也可能破壞錄音作為法律證據的可信度；還可能會用來假冒他人身份，成為語音詐騙的**。它預示著未來的聲音可能會像**一樣，可以很容易地進行偽造。

但轉殖出的人類聲音，這其中還是會有些細微差別，經不起詳細推敲——取證專家可能會通過分析語音中的數字簽名，從而證明其為合成語音；而研究人員也開始在研究一種「聲紋」系統，以期其能很容易的分辨出原聲和生成的語音；不過語音轉殖還是存在著很多隱患，因為在普通的生活當中，足以造成相當嚴重的誤導性效果。

要實現「完美」的語音轉殖，最大的一道坎在哪？

谷歌的tacotron2系統也還只能進行模式化的情感表達，如根據輸入文字的標點符號的不同而在語氣上有所區分；在讀大寫單詞時加重語氣等。

而更進一步，想要和機器進行有情感語音的互動就更加困難了，因為這並不是單一技術所能完成的，它除了能輸出情感之外，還必須要求自然語言處理技術能夠識別出人類表達中的各種情感，以此作為回應的前提，而這已經超出了語音轉殖的技術範圍。

在語音互動中，讓機器能夠自然、順暢的說話是人機互動的一大要求，表現力、音質、複雜度和自然度一直是語音合成所追求的。

而隨著ai技術的發展，語音互動的音質、流暢度、自然度都得到了很大的提高，但在表現力方面依舊是其最大的痛點，不過隨著各大廠商的持續發力，未來使機器也能像朗讀者一樣，抑揚頓挫、情感起伏、拿捏到位也不是夢想。

AI助力語音轉殖，人和自己「對話」的障礙在哪？

AI語音助手

AI 智慧型語音應用專題

AI公司為何開始爭相推出AI語音晶元？

AI助力語音轉殖，人和自己「對話」的障礙在哪？

AI語音助手

AI 智慧型語音應用專題

AI公司為何開始爭相推出AI語音晶元？

相關推薦