使用 sndpeek 和自定義演算法在預先錄製的庫中尋找匹配的語音。建立應用程式幫助您識別**會議、podcast 和新聞直播中的說話者。構建基本的輔助程式以幫助有聽力障礙的人士在頻寬有限的環境中識別說話者。通過聲波紋實現 可靠的身份驗證十分複雜和困難。但是,sndpeek 和一些自定義演算法可以提供一種聲波紋匹配配置,這種配置適當降低了複雜度,同時保留了較高程度的有效性。本文將演示修改 sndpeek 所需的工具和**,從而針對給定講話者錄製個人聲波紋檔案。隨後將把所有這些檔案與傳入的實時音訊流相比較,從而提供當前說話者的最佳猜測匹配和視覺化。
要求硬體
需 要系統能夠處理可能來自外部麥克風的聲音輸入。本文中的**是在支援 1,800-mhz 處理器和 1 gb ram 的 ibm® thinkpad t42p 上開發和測試的。效能稍差一些的系統應當能夠使用本文提供的**,因為 sndpeek 是主要的資源消耗者並且是乙個高效的程式。
軟體需 要可支援聲音處理和麥克風的作業系統,mac os x、windows® 和 linux® 的當前版本都可以。雖然聲音配置和故障排除超出了本文的範圍,但是在 vector linux live cd 上測試這段**可能十分有用,因為 vector linux live cd 擁有在各種聲音硬體上實現有效設定所需的大部分驅動程式和元件。還需要用於顯示的硬體 3-d 加速功能。
sndpeek 應用程式(請參閱 參考資料)被設計為在 windows、mac os x 和 linux 上工作。在繼續處理本文所述的修改之前,請確保擁有執行正常的音訊環境。
回頁首
構建用於匹配的聲音檔案庫
語音參考檔案要求
為了精確匹配語音,要求具有可以與當前聲音相比較的內容。需要有持續時間較長的聲音示例,從而以此作為匹配物件建立可靠的模板。示例長度最好為 5 分鐘左右的普通講話,包括沉默、單詞之間的停頓等。
應當避免混入很多其他交談特性,例如咳嗽、鍵盤噼啪響聲以及過度的**線或環境雜訊。需要使用雜訊相對較小的環境,因為聲音表達以外的任何聲音都會對參考聲波紋產生不利影響。
需 要使用您最喜愛的音訊編輯程式(例如 audacity)把可用的已錄製語音材料連線成單語音(single-voice)音訊檔案。例如,我使用了錄製的**會議和 ibm developerworks podcast 作為撰寫這篇文章時使用的單語音音訊檔案的原始材料。
注意,您可能需要更多或非常少的源資料,這取決於要匹配的說話者的自身差異。考慮圖 1 和一小部分語音之間的平均差異。該圖形是使用另乙個優秀的音訊處理工具 baudline 實時生成的。
圖 1. 使用 baudline 得到的平均語音波形示例
修改 sndpeek
清單 1. 庫包含語句、變數宣告
// for reading *.vertex* entries in the current directory接下來,在第 1339 開始新增如下所示的**以開始監視過程。#include
// voice matching function prototypes
void initialize_vertices( );
void build_match_number( int voices_index );
// for voiceprint matching
int g_voice_spectrum[200]; // human voice useful data in 0-199 range
int g_total_sample_size = 0; // current size, or number of data points
float g_loudness_threshold = -0.8; // what is a loud enough sample
本文**ibm developerworks中國
說話人識別模型 GMM UBM
文中包含筆者在某語音公司實習期間撰寫的說話人識別的完整過程介紹,包括音訊語料預處理,模型搭建和訓練以及未知音訊 等,可以作為試驗復現的藍本.1 聲紋能作為判別不同人的依據是什麼 每個人的聲音都有獨特的特徵,這個特徵由兩個音素決定 1 聲腔的尺寸 2 發聲器官被操縱的方式 比如聲帶上的肌肉運動 這些因...
flask ai 語音識別以及模擬人類說話
flask 語音識別以及合,模擬人類說話 from aip import aipspeech import os api key 7qgg 9lcx8mvmj secret key ky q0zndnrzg9rtn6upz0xip def text2audio answer 語音合成 result ...
說話人識別參考書 待更新
韓紀慶,2013,第二版,語音頻號處理,第7章,說話人識別,大概40頁 京東上已經有第三版了 fundamentals.of.speaker.recognition,homayoon.beigi,springer,2011,900多頁 gmm ubm,i vector,plda,d vector,x...