c語言實現語音檢測vad AI語音互動技術

2021-10-13 18:13:13 字數 3842 閱讀 2702

近年來,由於深度學習技術、大資料、移動網際網路、雲計算等技術領域的發展,人工智慧技術獲得了快速、跨越式的發展。作為人工智慧技術中的重要領域,智慧型語音互動技術逐漸成熟,成為最為落地的方向之一,引起業界各方的持續廣泛關注,行業發展已迅速進入場景應用布局階段。智慧型語音技術在移動智慧型終端、車載語音互動、可穿戴產品、智慧型家居領域均有了迅猛發展,進一步推動了語音互動技術的發展和應用。

智慧型語音發展情況

智慧型語音可以實現人機互動的語言互動,主要通過聲音採集、語音識別、自然語言理解、語音合成等關鍵環節,實現人機對話、人機互動、智慧型判斷決策的一系列動作。全球智慧型語音技術發展的快速應用階段在2023年後,該階段智慧型語音技術的應用開始進入新興的移動網際網路領域,標誌性的事件即蘋果發布智慧型語音助手siri,極大拓展了智慧型語音的使用者和受眾。

根據中商產業研究院發布的《2019-2023年中國智慧型語音行業市場前景及投資機會研究報告》,全球智慧型語音市場規模將從2023年的80億美元增長至2023年的227億美元,其中醫療健康、移動銀行以及智慧型終端智慧型語音技術快速增長的需求將成為主要的驅動因素。

1、智慧型語音互動系統

根據應用場景分類,消費級智慧型語音互動系統可分類為車載智慧型語音產品(前裝、後裝)、智慧型家居語音互動(智慧型音箱、傳統家電、智慧型機械人)、虛擬語音助手(移動應用)、智慧型語音可穿戴裝置(腕表、耳機)等;根據專業級行業的應用場景,智慧型語音互動系統可分類為智慧型語音醫療產品(電子病歷)、智慧型語音教育產品(口語訓練與評測)、智慧型語音客服(呼叫中心、智慧型問答、語音質檢、語料挖掘)等。

2、 產業結構

智慧型語音產業結構分為三層。上游基礎層著重伺服器晶元感測器、計算平台和大資料等資源;中游技術層提供語音識別、語音合成、深度/機器學習、人機互動等技術研究和服務;下游應用層指技術使用者,包括在智慧型家居、金融、醫療、安防等不同領域的典型應用。

圖1  智慧型語音產業結構

3、國內智慧型語音發展

語音互動關鍵技術

基於語音的人機互動是當前人機互動技術的主要表現形式,結合人機互動過程,可以看出其關鍵技術主要包括:語音識別、語言處理、語音合成、邏輯處理及內容整合等。

圖2  智慧型語音互動的技術流程

1、語音識別

語音識別即機器讀取人說話的內容,將語音轉換為文字。這個過程要提取訓練音訊中的特徵,並結合特徵構建和訓練聲學模型、語言模型。具體的流程如圖3所示:

在進行語音識別前,為了保證識別效果,語音的首段和尾段可以先通過切除處理,避免干擾後續的處理過程,將一段語音進行分幀。這個語音頻號預處理的過程一般稱為vad,語音識別後續的操作都是在vad擷取出來的有效片段上進行,從而能夠減小語音識別系統雜訊誤識別率及系統功耗。把每一幀波形變成乙個多維向量,這個向量包含了這幀語音的內容資訊,這個過程為聲學特徵提取,常見的有梅爾頻率倒譜係數mfcc。另外,如卷積神經網路cnn、cnn-lstm-dnn等深度神經網路模型在語音特徵提取中取得了良好的效果。聲學模型是把語音轉化為聲學表示的輸出,即找到給定的語音源於某個聲學符號的概率。

圖3  語音識別流程

2、自然語言處理

自然語言處理融合了語言學、電腦科學、數學等多學科內容,可分為自然語言理解、自然語言生成、對話管理。語言理解和生成分別指理解使用者的語言輸入和產生系統的語言輸出,直接影響對話系統的效能。對話管理從語言理解獲取輸入資訊,維護對話過程中的系統內部狀態,並基於狀態生成對話策略,輸出至語言生成。當前的自然語言處理技術還只能實現較淺層面的人機互動,對於較為複雜的溝通場景,如多輪對話、上下文聯絡緊密、邏輯推理、情感表達等,人機互動還不能像人與人溝通那樣順暢自然。

3、語音合成

目前主流的語音合成技術主要指tts,即將文字轉換為語音。具體實現過程可分為前端文字分析和後端語音合成兩部分。文字處理實現將文字轉化成音素序列,並標出每個音素的起止時間、頻率變化等資訊。常見的語音合成演算法有三種:(1)拼接法,從事先錄製的大量語音中,選擇所需的基本單位拼接而成。(2)引數法,將語音的特徵引數如共振峰頻、基頻等通過統計模型產生,並用波形的方式將這些引數輸出。(3)hmm模型法,建立聲道的物理模型,通過這個物理模型產生波形。

圖4  語音合成流程

4、語音資料庫

語音資料庫是語音互動中關鍵技術發展的基礎,一切關鍵演算法的優化和創新都依託於高質量語音資料的訓練和測試。通常來說,語音資料庫包括訓練語音資料和測試語音資料,訓練語音資料用於演算法構建、引數調優等,測試語音資料用來驗證識別效果等。高質量的標準語音資料庫建設是智慧型語音發展的保障,目前常用的公開中文語音資料庫介紹如下:

(1)清華大學thchs-30中文語音庫

thchs-30語音庫是由清華大學語音與語言技術中心(cslt)出版的開源中文語音資料庫。初版錄音於2023年由朱曉燕教授在清華大學電腦科學系智慧型與系統重點實驗室下進行。該資料庫是較經典的中文語音資料集,包含了1萬餘條語音檔案,大約40小時的中文語音資料,內容以文章詩句為主,全部為女聲。他們希望為語音識別領域的新入門的研究人員提供玩具級別的資料庫,因此資料庫對學術使用者完全免費。

(2)mandarin chinese read speech corpus

該語料庫包含755小時的語音資料,其主要是移動終端的錄音資料。來自中國不同重點區域的1080名演講者參與錄製,句子轉錄準確率高於98%,錄音在安靜的室內環境中進行。資料庫分為訓練集,驗證集和測試集,比例為51:1:2。諸如語音資料編碼和說話者資訊的細節資訊被儲存在元資料檔案中,錄音文字領域多樣化,包括互動問答,**搜尋,sns資訊,家庭指揮和控制等。該語料庫旨在支援語音識別,機器翻譯,說話人識別和其他語音相關領域的研究人員。因此語料庫完全免費用於學術用途。

(3)st-cmds

st-cmds中文語音資料集,包含10萬餘條語音檔案,大約100餘小時的語音資料。資料內容以平時的網上語音聊天和智慧型語音控制語句為主,855個不同說話者,同時有男聲和女聲,適合多種場景下使用。

(4)aishell開源版

aishell中文語音資料集,其中包含約178小時的開源版資料。該資料集包含400個來自中國不同地區、具有不同的口音的人的聲音。錄音是在安靜的室內環境中使用高保真麥克風進行錄音,並取樣降至16khz。通過專業的語音注釋和嚴格的質量檢查,手動轉錄準確率達到95%以上。

隨著智慧型語音技術的研究和發展,滿足於各種需求的語音資料庫不斷被發布。由於我國地緣遼闊、民族眾多、語言歷史悠久,除中文普通話外,還有不同地域方言、不同地域重口音普通話、不同民族語言等種類,產業對不同維度的語音資料庫具有迫切的需求。

結束語

在人工智慧領域,語音互動技術的應用已經滲透到各垂直行業中,市場上湧現了越來越多搭載語音互動系統的智慧型產品,這對產品的語音效能測評也提出了更高要求,因此面向語音技術和產品的技術要求和測評標準需盡快完善落地。

目前來看,國內各研究單位、標準組織和協會如ccsa、taf、aiia等均在ai語音標準方面進行了大量的工作,相關的標準已相對比較完備。但由於新形態的語音產品不斷湧現,標準工作應從產業和市場的實際需求出發,聯合業界各方對新技術、新產品展開研究,保證標準研究工作的可行性和落地性。

作者簡介

李瑋,工學碩士,中國資訊通訊研究院泰爾終端實驗室工程師,主要從事智慧型終端產品的語音測評研究和標準工作。

C語言實現linux網絡卡檢測 改進版

c語言 shell 實現linux網絡卡狀態檢測 和 c語言實現linux網絡卡連線檢測 2文的方法各有缺陷,比如有些系統執行ifconfig需要root許可權,要不就不支援ioctl fd,siocgmiiphy,ifr 這樣的操作。以下給出了c語言實現linux網絡卡連線檢測 的改進版實現與c語...

C語言實現linux網絡卡檢測改進版

c語言 shell 實現linux網絡卡狀態檢測 和 c語言實現linux網絡卡連線檢測 2文的方法各有缺陷,比如有些系統執行ifconfig需要root許可權,要不就不支援ioctl fd,siocgmiiphy,ifr 這樣的操作。以下給出了c語言實現linux網絡卡連線檢測 的改進版實現與c語...

C語言實現memcpy

memcpy和memmove都是c語言中的庫函式,在標頭檔案string.h中,作用是拷貝一定長度的記憶體的內容,他們的作用是一樣的,唯一的區別是,當記憶體發生區域性重疊 的時候,memmove保證拷貝的結果是正確的,memcpy不保證拷貝的結果的正確。程式設計師面試寶典中有例題 對應的原型如下 v...