過去一年以來,我在文章中提到過多家專業從事語音合成技術的企業。其大多數處於早期開發階段,只有少部分能夠拿出可供參考的預製樣本。如今,來自蒙特婁大學學習演算法研究所的研究人員們則正式推出一款工具,可供大家自行體驗這種新型技術。
這款工具名為lyrebird,其公開beta測試版只需要利用長度為1分鐘的音訊即可生成與使用者語音特徵高度相似的數字語音輸出結果。據稱,這項技術適用於個人語音助理構建、遊戲數位化角色設計、有聲讀物等語音內容表達。當然,如果你深愛自己**的嗓音並希望將一切內容都轉化為這種形式,該工具同樣能夠幫上大忙。
我決定親自加以嘗試——而且必須承認,結果實在令我感到又驚又喜。
以下為我錄製的用於訓練該系統的音訊片段:
以下則為數位化語音片段,其讀出了我輸入lyrebird的文字內容——且包含大量我在進行系統訓練時並未使用的詞語:
沒錯,請戴上耳機認真聆聽這段驚世駭俗的輸出結果。
最令人不可思議的是,這樣一款公開的工具能夠利用一小段音訊樣本帶來如此出色的語音效果。誠然,現在我們還無法利用基於lyrebird的應用生成足以騙過任何聆聽者的語音:我們必須首先錄製螢幕上顯示的句子,並利用此段音訊進行系統訓練。更具體地講,大家還不可能隨意上傳一段一分鐘長度的金正恩講話音訊,並藉此生成足以以假亂真的其它語音內容。
lyrebird系統需要30個句子(音訊長度約為1分鐘)來建立數位化語音輸出結果。
同樣值得注意的是,這還僅僅是語音合成技術的開端。lyrebird專案在說明文件中提到,其獲得的音訊樣本越豐富,數字語音輸出結果質量就越好。adobe公司還在研究voco專案,其旨在開啟音訊錄製編輯的可能性,這意味著未來音訊編輯將如同在文件當中複製/貼上文字一樣輕鬆。
lyrebird專案提到,其核心主旨在於為社會作出貢獻:
我們向任何潛在使用者提供這項技術,亦在逐步推出更為完善的方案以確保社會能夠適應這項技術,並立足積極層面取得良好效果——同時盡可能防止潛在的負面應用方式。其還提供多種方式以對您提交的任何音訊加以分析,並藉此判斷音訊內容屬實或存在偽造跡象。
與此同時,專案研究人員還表示只要獲得他們的許可,lyrebird即可為任何使用者提供高質量數字語音輸出結果。目前尚不清楚lyrebird方面打算如何驗證相關授權申請,以及使用者是否需要像前文提到的那樣對系統進行訓練——抑或僅需要錄製目標語音並向專案組提交音訊檔案即可。
我們是否應該為此感到擔憂?也許目前還沒必要——但考慮到技術進步的速度如此驚人,特別是機器學習領域的飛速發展,未來我們可能將面臨完全不同的狀況與挑戰。
另乙個問題在於,我們還缺少用於分析偽造音訊的文化、習慣或者易於使用的工具。這意味著成為欺詐分子的門檻很低,而發現虛假資訊傳播者的難度也將因此而提高。
目前還很難確定這款新工具的面世,是否意味著網路將很快被偽造音訊所淹沒。但不能否認的是,合成音訊將很容易成為惡意人士的另一種攻擊載體——對於這樣的隱患,我們顯然還沒有做好充分的應對準備。
原文出處:科技行者
我的乙個BLOGER?!
我的第乙個blog是2004年12月10號自己空間裡做的,imthink的,後來不用了,改z blog,然後被刪了,就申請了blogsom.的,也打不開了,又申請blog 的,感覺太差,速度也慢,這個還好。我不知道為什麼最近老是這麼背,先是和準姐夫鬧翻,然後工作丟了,準備回學校又被騙了手機和錢,我在...
我有乙個vector,stl vector的使用。
題目描述 作為乙個程式媛 猿,或許大家都有頭被按在鍵盤上的經歷。邊總突然想知道自己的頭在鍵盤上按出來的字母有沒有規律,於是他打算統計出被按出來的亂碼中每個字母出現的位置。給出字串和要查詢的字母,問要查詢的字母出現過的位置。輸入多組測試樣例 每行為乙個不知道有多長的字串 s 然後是乙個字元表示 c 要...
我的最後乙個假期
開始假期結束倒計時了。我爸爸曾經說我 我的眼睛裡看不到活。大意就是指我很懶,如果不主動委託我,我是絕對不會去做事情的,因為我沒有做事情的意識。這個假期我貌似開始主動去做些事情了。回想這個改變是如何發生的,到頭來卻還要感謝 爸爸去哪兒 的 王詩齡和我的 弟弟。王詩齡很會來事,特別是對爺爺說 爺爺在家好...