時代拓靈數字聲紋識別sdk整合除錯過程
時代拓靈數字聲紋識別sdk效果概述
聲音採集
採集說話人聲音,按說話人語音內容可分為:固定文字聲紋識別與非固定文字聲紋識別,用
戶可根據不同場景自行選擇。
活體檢測
檢測說話人是否為正常活體,可以有效對非錄音和其他非正常人聲進行檢測,從而增加聲紋
識別對手機錄音攻擊的防禦能力,在智慧型聲紋識別中可進行配置。
說話人身份識別
判定說話人是否為當日當時具有相應許可權的操作和管理人員,並將比對結果上傳資料中心
門內人數判定
可以判定說話人是否為不同人聲,因此可以判定是否符合規範要求
聲音實時記錄及查詢
記錄區域內說話人聲音,系統判定識別結果,並將聲音記錄及判定結果、操作記錄實時上傳備案;系統可儲存所有進出記錄、聲音記錄,可按不同的查詢條件查詢
聲學演算法保障
前端音訊訊號處理,演算法降噪去環境噪音干擾
整合步驟
1.前往時代拓靈官網下數字聲紋識別sdk demo
在 project 資料夾裡,簡單閱讀和修改 twirlin**prsamples.cpp :將 輸入音訊 修改為自己測試的16k取樣,16 bit量化,單通道,pcm 檔案的具體路徑
**實時處理 pcm,可通過 math_distance 返回值來區分不同音訊聲紋差異;01,1為最大
在 project 資料夾裡,簡單閱讀和修改 twirlin**prsamples.c :將 輸入音訊 修改為自己測試的16k取樣,16 bit量化,單通道,pcm 檔案的具體路徑
**實時處理 pcm,可通過 math_distance 返回值來區分不同音訊聲紋差異;01,1為最大
通過project目錄下的 64bit_make.sh 建立您的可執行程式,生成路徑為 twirlin**pr/bin/twirlin**prsamples
twirlin**pr/bin/twirlin**prsamples 可直接執行,目前測試用例是自對比,故輸出為1
sdk 介面說明
char *twirlin**prgetversion()
返回值:當前版本
功能: 確定版本是否正確
int twirlin**prprocess(void *obj, char file_name, float d_vector)
obj[in] twirlin**prinit 函式返回的指標
file_name 輸入pcm音訊
返回值: 0成功,d_vector輸出特徵值
功能: 判斷聲紋特徵
void twirlin**prrelease(void *obj)
obj[in] twirlin**prinit 函式返回的指標
功能: 銷毀聲紋物件指標,釋放資源
5.tips:
1、拓靈均數字聲紋識別sdk支援哪些平台和版本?
當前支援 windows和linux,android即將上線
2、裝機量怎麼定義的?
裝機量授權:數字聲紋識別sdk按照裝機量收費,購買後即獲得相應授權。裝機量按照使用了開發者應用的終端裝置資訊進行統計,即在終端裝置上安裝了應用並啟用了數字聲紋識別sdk控制,即記為乙個裝機量。同乙個終端裝置上解除安裝(重灌)應用均記為乙個裝機量,不重複計數。
時代拓靈文字無關聲紋識別SDK整合除錯過程
通過project目錄下的64bit make.sh建立您的可執行程式,生成路徑為twirlingtivpr bin sample twirlingtivpr bin sample 可直接執行,接受兩個引數,都是16k取樣,16 bit量化,單通道,pcm 檔案的具體路徑,返回兩個音訊聲紋的相似度打...
聲紋識別調研
聲紋 voiceprint 是用電聲學儀器顯示的攜帶言語資訊的聲波頻譜。現代科學研究表明,聲紋不僅具有特定性,而且有相對穩定性的特點。成年以後,人的聲音可保持長期相對穩定不變。實驗證明,無論講話者是故意模仿他人聲音和語氣,還是耳語輕聲講話,即使模仿得惟妙惟肖,其聲紋卻始終不相同。聲紋識別的主要任務包...
d vector聲紋識別基礎
dnn訓練好後,提取每一幀語音的filterbank energy 特徵作為dnn輸入,從last hidden layer提取activations,l2正則化,然後將其累加起來,得到的向量就被稱為d vector。如果乙個人有多條enroll語音,那麼所有這些d vectors做平均,就是這個人...