一、語音頻號處理的三個主要方向。
1,語音合成。
語音合成的是為了讓計算機產生高質量的、高自然度的連續語音。計算機語音合成系統又稱文語轉換系統(tts),主要是將文字輸出語音。
發展過程:共振峰合成、lpc合成、psola技術。
2,語音編碼。
在語音頻號傳輸過程中,頻率資源的合理使用,顯得很珍貴,所以在傳輸之前,先將語音頻號進行語音編碼壓縮。
3,語音識別。
語音識別涉及到語言學、電腦科學、訊號處理、生理學等相關學科,是模式識別的分支。其主要目的是讓計算機通過識別和理解將語音翻譯成可執行的命令或者是文字。
主要研究方向:根據說話方式,孤立語音識別系統,連線詞語音識別系統,連續語音識別系統。根據說話人,特點人識別系統,非特點人識別系統。根據詞彙量,小詞彙語音識別系統,中等詞彙語音識別系統,大詞彙語音識別系統,無窮詞彙識別系統。
二、語音頻號處理流程。
如上圖所示:
2 預處理,首先找出語音起始點,即端點檢測,然後對訊號適當的放大和增益控制,消除工頻訊號干擾。(備註:這裡關於預處理和數位化在不同著作上稍有不同,在趙力版的《數字語音處理中》,其流程是先數位化,放大及增益控制,反混疊濾波,取樣、a/d轉換、編碼。然後是預處理,提公升高頻部分,加窗操作,即變換為一幀一幀的語音資料)。當然,這裡的預處理在趙力版 中可以理解為預濾波。
3 數位化,將模擬訊號數位化,pcm編碼方式儲存。
4 對數位化的資訊進行分析,提取特徵引數mcff。
5 根據不同的目的,
5.1 語音識別,分為識別和訓練階段。
5.2 語音編碼,將語音進行壓縮編碼,解壓。
5.3 語音合成,對編碼後的訊號進行儲存。
語音頻號處理
濁音的聲帶振動基本頻率 fundamental frequency 稱為基音頻率。濁音的基音頻率 pitch 語音生成系統和語音感知系統 語音頻號生成的數學模型 語音頻號的特性分析 語音頻號處理是以語音語言學和數字訊號處理為基礎的綜合性學科,是用數字訊號處理技術對語音頻號進行處理的一門學科。說話人識...
語音頻號的預處理
2014年09月05日 綜合 共 1116字 字型大小 小 中 大 回顧上兩次的內容 上次主要說了音訊檔案的讀取 主要是matlab和c語言 感覺有幾個概念有點混淆 語音 音訊 語音英文是speech,音訊是audio,是music。據我的理解是音訊包括語音和 不知道這麼理解對不?此外,讀取音訊其實...
語音頻號處理共振峰
首先,什麼是語譜圖。最通常的,就是語音短時傅利葉變換的幅度畫出的2d圖。之所以是通常的,是因為可以不是傅利葉變換。窄帶 顧名思義,頻寬小,則時寬大,則短時窗長,窄帶語譜圖就是長窗條件下畫出的語譜圖。寬頻 正好相反。至於 橫豎條紋 窄帶語譜圖的帶寬窄,那麼在頻率上就 分得開 即能將語音各次諧波 看得很...