語音識別(
sr)技術(或稱「語音科技」)成為當今科技研究的最大「熱點」(或」聚焦點「)是有客觀原因的。
為什麼?
在國內搞科研。往往喜歡「趕潮流」,不問具備什麼客觀條件,喜歡「蠻幹」。
我們幹事情要搞清楚周邊的環境,看看情況再上路,不能」任性「。
大家知道,人與人用語音溝通。相互「說話」。交換資訊。
我們用耳朵聽別人說話並不認為有什麼困難,除非耳聾。如今的問題是,網際網路大發展。差點兒人人手中都有智慧型手機。人與機器的關係經歷了鍵盤、滑鼠、觸控階段,如今進入了語音互動的新時代。人與機器怎麼交流?機器沒有耳朵怎麼辦?
實際上,讓機器長出「耳朵」是當今科技界的乙個緊迫問題(即」科研熱點「)。機器不能都是「聾子」,機器必須學會正確識別人的語音。了解人的意思,聽從指揮。
眼下。全世界有數千名語音科學家在全力攻克語音機器識別問題。依據何在?
近些年來。全球語音科學家每年聚會一次(頂級大會)。交流研究心得。展示研究成果。這就是著名的「
interspeech」
大會。interspeech
的意思是「語音頻號處理」。
每年參會人數以及研究**數量都是無與倫比的,出乎我們的想象,比方:「interspeech2014」
大會,實際參會人數為
1,300
多人。提交**
1,173
篇。經過嚴格審定之後,有
613篇高質量**在大會上宣讀,而且全文(不是摘要)收入大會文集備查。
今年的」
interspeech 2015」
大會在德國召開,會期
5天,從9月
6日至10日。大會主題是:「
speech beyond speech: towards a better understanding of the most important biosignal」
。意思是,朝著更好地理解最重要的生物訊號方向前進。什麼是「最重要的生物訊號」(
biosignal
)?毫無疑問,最重要的「生物訊號「就是人的語音(
speech
)! 你我之間講話溝通,就是相互發出」生物訊號「,與機器溝通也是這樣。
袁萌 7月13
日
語音識別技術
中科院聲學所將為奧運會提供語音技術支援 日前,由首信集團 首都資訊發展股份 牽頭 中科院聲學所參與其核心模組研製的 奧運會多語言服務 系統被北京奧組委正式採用。這標誌著聲學所在利用自身科研優勢 積極為 科技奧運 做貢獻方面取得了新的成果。從2002年開始,聲學所就參與了由科技部和北京市科委組織,北京...
語音識別技術
雖然人從外部獲取資訊,絕大部分來自來自視覺,可是語音的地位一直很高的,它很好的表表達了人的特徵和清晰的收入方式。其中語音識別技術的地位又是很高的,可以讓機器在字面上明白你在說什麼,這是自然的人機互動的基礎。現在走在語音識別技術前沿的公司有科大訊飛,google 微軟。在我們的前面幾篇 blog 中已...
語音識別技術概覽
語音識別基本和識別類似,都是從傳統的模型到深度神經網路dnn,再到rnn 深度卷積網路cnn。在端到端方面也是從隱馬爾科夫hmm到ctc lfmmi,再到attention方面 下面是一些模型列表 1.混合高斯 隱馬爾科夫模型 gmm hmm 2.深度神經網路 隱馬爾科夫模型 dnn hmm 3.深...