機器之心對俞棟的採訪

2021-07-24 08:13:22 字數 1093 閱讀 2596

俞棟:我們寫這本書的時候,lstm 這樣的模型才剛剛開始成功應用於語音識別。當時大家對其中的很多 技巧 還沒有很好的了解。所以訓練出來的模型效果還不是那麼好。最近,我的同事 jasha droppo 博士花了很多時間在 lstm 模型上面,提出了一種很有意思的基於 smoothing 的 regularization 方法使得 lstm 模型的效能有了很大的提公升。他的 smoothing 方法的基本思想在我們的 human parity 文章中有介紹。

另外乙個比較大的進展是 deep cnn。最近兩年裡,很多研究組都發現或證實使用小 kernel 的 deep cnn 比我們之前在書裡面提到的使用大 kernel 的 cnn 方法效果更好。deep cnn 跟 lstm 比有乙個好處。用 lstm 的話,一般你需要用雙向的 lstm 效果才比較好。但是雙向 lstm 會引入很長的時延,因為必須要在整個句子說完之後,識別才能開始。而 deep cnn 的時延相對短很多,所以在實時系統裡面我們會更傾向於用 deep cnn 而不是雙向 lstm。

還有就是端到端的訓練方式也是在我們的書完成後才取得進展的。這方面現在大家的研究工作主要集中在兩類模型上。一類就是 ctc 模型,包括 johns hopkins 大學的 dan povey 博士從 ctc 發展出來的 lattice-free mmi;還有一類是 attention-based sequence to sequence model。這些模型在我們的書裡面都沒有描述,因為當時還沒有做成功。即便今天它們的表現也還是比 hybrid model 遜色,訓練的穩定性也更差,但是這些模型有比較大的 potential。如果繼續研究有可能取得突破。

另外乙個進展是單通道語音分離,尤其是多人混合語音的分離。這方面有兩項有趣的工作。乙個是 merl 的 john hershey 博士提出的 deep clustering 方法,另外乙個是我們提出的 permutation invariant training。實現上,permutation invariant training 更簡單。john hershey 認為有跡象表明 deep clustering 是 permutation invariant training 的乙個特例。

這些都是在我們完書之後最近兩年裡比較有意義的進展。

對基層工人的採訪報告

秦政 王浩揚 呂澤傑 覃泊皓 為了更好的了解我們所處的社會,感受基層工作者生活的不易,我們組成員調查了電子科技大學內及周邊工地的部分工人。經過採訪與資料的收集,發現了一些現象和問題,通過調查報告展示我們的調查成果。一 採訪記錄 採訪者一 電子科技大學校園工地的一名工人。在採訪時他剛剛完成工作,正在清...

對不隊的團隊採訪

為了響應軟體工程的附加題,小編我當了一回不專業的小記者,雄赳赳氣昂昂地就跑到實驗室採訪我們的大神團隊了。由於大神說要低調,此處將沒有大神的帥照以及真名。以下為採訪轉播。小編 學弟,學弟,你們的團隊名稱叫什麼?大神 3d攻城師。小編 這個名字有什麼寓意嗎?大神 取名字要霸氣,工程師太死板,但攻城師就不...

Unix現狀與未來 CSDN對我的採訪

用picocontainer 和nanning 實現事務管理 是constructor injector 的ioc 容器。nanning 是dynamic aop 的一種實現。專案中我用 pico 作為我的微核心,在某些地方需要用到 aop,最典型的是 事務管理 transaction manage...