AI助力語音轉殖,人和自己「對話」的障礙在哪?

2021-08-16 12:09:24 字數 2082 閱讀 8111

文 | 王志

** | 智慧型相對論(aixdlun)

如果有一天,你可以將你的聲音通過人工智慧技術「轉殖」出來,而且你還能和「你」進行各種對話,你是否願意嘗試?

這個場景並不遙遠,不久前,

「ai first

」的谷歌表示,其最新版本的人工智慧語音合成系統——tacotron2合成出來的語音幾乎和真人聲音一模一樣。它擁有兩個深度神經網路,第乙個能夠將文字轉化為頻譜圖,第二個則負責將頻譜圖生成相應的音訊。

語音轉殖技術是什麼?又能做些什麼?

語音合成的技術有三種,但只有ai技術才能稱為語音轉殖

最早的語音合成技術通過預先錄製好的字詞、短句來實現的,把各個部分串成一行,以此產生完整的句子。生活中各種服務**的自助語音系統就是用這種方式實現的,所以會經常存在卡頓,音色不一樣等問題,語氣也很冰冷。

第二種手段雖然能夠使語音更加自然,但其中也需要大量的人工處理,首先是製作語音庫,確定音色、風格、特性、角色等要求後,投入音庫生產線,設計錄音指令碼、訓練錄音資源、進行效果優化,在輸出的時候還要進行各類語言處理,包括文字規整、詞的切分,然後是韻律處理,為其劃出音段特徵,如音高、音長和音強等等,使合成的語音給人的感覺更加自然些。

但這類合成系統因為進行韻律**處理方面的工作量巨大、所以也存在表現能力不足等問題,如合成語音對不同情感的表達會不夠恰當,使得合成語音聽起來缺乏人情味。而語音合成的技術發展不僅要讓說話的聲音達到真人水準,也應當在情感表達方面有所突破,使語音互動帶有情感,達到更好的交流體驗。

其中「說話人適應」是使用多個轉殖樣本,基於反向傳播的優化方法對多個說話人語音生成模型做精細調節。這個方法可以只作用於低維度的說話人嵌入,或者作用於整個模型;在低緯度的嵌入時,每個說話人所需的參數量比較少,而且需要較長的轉殖時間,生成語音的質量也會差一些。

其中「說話人編碼」則需要訓練乙個單獨的模型,用它直接從語音樣本中推斷出乙個新的嵌入資料,然後再把這個嵌入資料用在多個講話人語音生成的模型中。而且這個方法還帶有時域和頻域的處理模組,可以從音訊樣本分析中提取到有關說話人的身份資訊,然後用注意力模組把各種資訊以最優的方式結合起來。這個方法的好處是轉殖耗時少、標明說話人資訊所需要的引數少,使得這種方法在輸入資源有限的場景中也能夠使用。

語音轉殖的功與過

在人機互動的個性化場景中,研究人員預期語音轉殖可能會有很重要的作用,如可以用來訂製個人ai助手、讀書音訊以及殘疾人語音系統等,且對有語言障礙人來說,這個程式能幫助他們練習發聲,使他們更容易與人交流,這種過程就像是在和乙個善解人意的朋友在聊天一樣,可能會成為乙個重要的社交工具。

而在心理醫療領域,如果能復原出逝者的聲音,這對於痛失親人後在心理上造成了創傷的人們來說,也無疑是巨大的安慰。

不過語音轉殖也會帶來一些麻煩,它可能會被用來對公眾人物進行惡意攻擊;也可能會使聲紋識別形同虛設,因為據《新科學家》報道,使用人工智慧技術做出聲音識別軟體,在測試中,準確率已經超過了95%;也可能破壞錄音作為法律證據的可信度;還可能會用來假冒他人身份,成為語音詐騙的**。它預示著未來的聲音可能會像**一樣,可以很容易地進行偽造。

但轉殖出的人類聲音,這其中還是會有些細微差別,經不起詳細推敲——取證專家可能會通過分析語音中的數字簽名,從而證明其為合成語音;而研究人員也開始在研究一種「聲紋」系統,以期其能很容易的分辨出原聲和生成的語音;不過語音轉殖還是存在著很多隱患,因為在普通的生活當中,足以造成相當嚴重的誤導性效果。

要實現「完美」的語音轉殖,最大的一道坎在哪?

谷歌的tacotron2系統也還只能進行模式化的情感表達,如根據輸入文字的標點符號的不同而在語氣上有所區分;在讀大寫單詞時加重語氣等。

而更進一步,想要和機器進行有情感語音的互動就更加困難了,因為這並不是單一技術所能完成的,它除了能輸出情感之外,還必須要求自然語言處理技術能夠識別出人類表達中的各種情感,以此作為回應的前提,而這已經超出了語音轉殖的技術範圍。

在語音互動中,讓機器能夠自然、順暢的說話是人機互動的一大要求,表現力、音質、複雜度和自然度一直是語音合成所追求的。

而隨著ai技術的發展,語音互動的音質、流暢度、自然度都得到了很大的提高,但在表現力方面依舊是其最大的痛點,不過隨著各大廠商的持續發力,未來使機器也能像朗讀者一樣,抑揚頓挫、情感起伏、拿捏到位也不是夢想。

AI語音助手

2 交給圖圖 std cout 波妞 message std endl if message 明天見。std string echo rb.talk message if sr.tts tts path,echo std cout 宗介 echo std endl else else util pr...

AI 智慧型語音應用專題

智慧型語音是人工智慧技術的重要組成部分,包括語音識別 語義理解 自然語言處理 語音互動等。關鍵字 人工智慧 物聯網 智慧型語音 智慧型家居 車載 智慧型可穿戴。智慧型語音技術是人工智慧產業鏈上的關鍵一環,可從行業應用 技術研究及服務和基礎設施三個層次來看 行業應用 智慧型家居 可穿戴裝置 機械人 虛...

AI公司為何開始爭相推出AI語音晶元?

2019年1月的ai語音晶元市場十分熱鬧,1月2日,雲知聲召開發布會推出多模態ai晶元戰略,並公布今年布局的3款ai晶元。1月4日,思必馳召開發布會發布其第一代ai語音晶元taihang。1月21日,獵豹移動旗下ai公司獵戶星空聯合瑞芯微電子宣布推出專門針對智慧型音箱和物聯網裝置的ai語音晶元。加上...