二年前參與過乙個通訊系統的語音客觀評估專案,在這把一些相關的知識背景介紹一下。
1.
引言
語音作為資訊傳遞的重要載體
,與其相關構成的通訊、編碼、儲存和處理等語音系統已成為現代社會資訊交流的必要手段
,且已廣泛應用於社會各個領域
。這些系統的效能好壞成為資訊交流是否暢通的重要因素
,而評價這些系統效能優劣的根本標誌是在於系統輸出語音質量的好壞。因此
,研製靈活、方便、可靠的語音質量評價系統自然成為國內外研究者共同努力的目標。
語音質量包括兩方面內容
:清晰度和自然度
。前者是衡量語音中的字、單詞和句的清晰程度
,而後者則是對講話人的辨識水平
。語音質量評價不但與語音學、語言學、訊號處理等學科有關
,而且還與心理學、生理學等學科有著密切的聯絡
,因此語音質量評價是乙個極其複雜的問題
。語音質量評價從評價主體上講可分為兩大類
:主觀評價和客觀評價
。主觀評價是依靠評聽者意見對通訊系統效能做出判決,是直接反映使用者的觀點並與系統的適應性相聯絡。目前國內外採用較多的主觀評價方法有[1]
:平均意見分mos(mean opinion score)、下降的平均dmos(degradation mean opinion score)、診斷押韻測試drt(diagnostic rhyme test)、滿意度判斷測量dam(diagnostic acceptability measure)等。它們的缺點是費時費力,重複性差,難以組織實施不夠靈活,而且條件不具備還無法組織實施,容易受人的主觀因素影響,不利於在生產過程和現場實驗中應用等。其中mos分是一種廣泛使用的主觀評價方法。
客觀評價主要依據的是原始語音頻號和失真語音頻號的時頻域或變換域的特徵引數對比。其主要是針對主觀評價方法的不足,人們早就希望有客觀評價方法來評價語音裝置的音質,所以許多學者陸續提出了基於客觀測度的客觀音質評價方法,希望採用這些方法方便、快捷地給出被測語音系統的語音質量評價值,只不過評價的主體是由機器(硬體或軟體)來完成。
目前國內外採用較多的客觀評價方法有:
psqm、pams和psqm+等方法,但大量研究發現,這些方法有較大的侷限性,效果與特定的編碼方式有關係,並且與mos法的結果相差較大
,因此itu-t標準在結合了pams和psqm99方法,在2023年提出了p.862標準來對語音音質進行客觀評價。其核心演算法是:pesq(
perceptual evaluation of speech quality)。pesq對語音音質作出的評價與主客評價的相似程度達到0.935。
客觀音質評估的國內外研究的概況
客觀音質評估最早可以追溯上個世紀四十年代,而為客觀音質評價方法研究奠定基礎的應歸功於s.r.quackenbush和t.p. barnwel l iii,他們對二十世紀八十年代中期以前的音質評價研究工作作了系統歸納,出版了一本有關客觀音質評價的專著。兩人建立了264種失真條件,得到了11880個樣本的失真語音庫,提出了譜距離、斜率加權譜距離、對數面積比、分段變頻訊雜比等客觀評價方法。
二十世紀八十年代後期各國的研究者又提出了許多新的客觀評價方法。如bellnorthern research提出的相關函式方法chf(coherence function),它是一種加權訊號失真比測度方法,通過描述人的聽力敏感度、人對雜訊門限效果以及**聽筒接收的敏感度等來對**語音質量進行評價;日本ntt研究人員n. kitawaki等人提出的倒譜距離cd(cepstral distance)方法,它是由原始語音頻號和失真語音頻號的1階lpc(linear predictive coding)係數分別推導出各自的倒譜係數c(i),然後求出它們之間的倒譜距離,其相關度達到了0.9左右,是一種與主觀評價相關性較好的評價方法;美國電信科學研究院its(the institute for telecommunication sciences)學者r. kubichek和e.a. quincy等人提出的專家模式識別epr(expert pattern recognition)方法,該方法運用貝葉斯估計原理來尋求語音頻號的特徵引數與語音質量之間的非線性關係,測試結果表明its法也比較令人滿意。
pesq
演算法的演算法介紹
pesq(perceptual evaluation of speech quality),語音質量的知覺評估方法,其測試的參考模型為:
pesq
總的思路是:對原始訊號(參考訊號)和通過測試系統的訊號進行電平調整到標準聽覺電平,再用輸入濾波器模擬標準**聽筒進行濾波。對通過電平調整和濾波後的兩個訊號在時間上對準,並進行聽覺變換,這個變換包括對系統中線性濾波和增益變化的補償和均衡。 兩個聽覺變換後的訊號之間的不同作為擾動(即差值),分析擾動曲面提取出兩個失真引數,在頻率和時間上累積起來,對映到對主觀平均意見分的**值。
相關的架構圖不能copy進來,下次再補上。
通訊語音音質評估
pesq sqi itu g.107 e模型 stispeech intelligibility the influence 1 當前測量gsm網路中語音質量的主要方法是使用路測工具並基於pesq演算法進行測量。依據itu p.862開發的這種客觀的測量方法用於評估端到端的語音質量。通常,運營商主要...
十種客觀評價語音質量的方法
目錄 1.基於snr的語音質量評價標準 1.1 snr和分段snr 1.2 頻域snr 2.基於lpc係數的語音質量評價標準 2.1 對數似然比距離 2.2 itakura saito距離 2.3 倒譜距離 3.基於感知的語音質量評價標準 3.1 加權譜傾斜測度 3.2 pesq 4.總結 基於sn...
VOIP語音質量測試
關於語音質量測試,描述較詳細的乙個專利文件 itu t建議的方式主要分為3類 傳輸質量測試 設施測試 本地網線纜測試 本文主要關注傳輸質量的測試 itu t建議的p.800是一種主觀測試方法,該方法成本高,費時長。看看其他幾種客觀測試方式 psqm psqm pesq,pams,emode。psqm...