語音的物理基礎主要有音高、音強、音長、音色,這也是構成語音的四要素。
音高指聲波頻率,即每秒鐘振動次數的多少;
音強指聲波振幅的大小;
音長指聲波振動持續時間的長短,也稱為"時長";
音色指聲音的特色和本質,也稱作"音質",與語音的波形有關.
語音活動檢測(voice detect activity)
在使用者沒有講話時,就沒有語音分組的傳送,從而可以進一步降低語音位元率。當使用者的語音頻號能量低於一定門限值時就認為是靜默狀態,也不傳送語音分組。當檢測到突發的活動聲音時才生成語音頻號,並加以傳輸。運用這種技術可以節省50%的頻寬。
短時能量分析和過零率分析作為語音頻號時域分析中最基本的方法.
根據語音的統計特性,可以把語音段分為清音、濁音以及靜音(包括背景雜訊)三種。
濁音的能量較大,過零率較小;清音的能量較小,過零率較大。靜音能量和過零率都很小。
短時平均過零數可以用來區分清音和濁音。發濁音時,語音能量約集中於3khz以下。而發清音時,多數能量集中在較高的頻譜上。濁音具有較低的平均過零數,而清音時具有較高的平均過零數.
對語音頻號,濁音的過零率較小,清音的過零率較大,在靜默期,若存在背景雜訊,則過零率較大,若不存在背景雜訊,則過零率較小。一般的經驗資料是:當取樣頻率為8 000hz時,對乙個10 ms的語音幀,清音的過零率大於49,濁音的過零率小於14。
對於清音,由於其能量較小,在短時能量檢測中會因為低於能量門限而被誤判為靜音;
短時過零率則可以從語音中區分出靜音和清音。將兩種檢測結合起來,就可以檢測出語音段(清音和濁音)及靜音段。
語音識別技術
中科院聲學所將為奧運會提供語音技術支援 日前,由首信集團 首都資訊發展股份 牽頭 中科院聲學所參與其核心模組研製的 奧運會多語言服務 系統被北京奧組委正式採用。這標誌著聲學所在利用自身科研優勢 積極為 科技奧運 做貢獻方面取得了新的成果。從2002年開始,聲學所就參與了由科技部和北京市科委組織,北京...
語音合成技術
語音合成又稱文語轉換 text to speech 簡稱tts,指通過機械的 電子的方法生成語音的技術。隨著科技的發展,合成語音的自然度和音質均得到了明顯的改善。目前,語音合成技術在我們生活中具有廣泛的應用,如電子閱讀 車載語音導航 銀行醫院排號系統 交通播報等等,這些應用場景都離不開語音合成。簡單...
智慧型語音技術
智慧型語音技術是最早落地的人工智慧技術,也是市場上眾多人工智慧產品中應用最為廣泛的。機器互動的發展過程 命令列介面 cli 圖形使用者介面 gui 自然使用者介面 nui 語音互動介面 voice user inte ce,vui 就是nui最重要的一種。手機 pc的語音助手 siri google...