我的八年博士生涯

2021-09-02 03:46:38 字數 2762 閱讀 2220

作者 | 王贇

下周一我就要開始在 facebook 上班了。趁入職之前,我想寫一寫我博士生涯的感悟;再不寫就要涼啦。

從 2010 年 8 月到 2018 年 10 月,我把我最好的青春年華都獻給了卡內基梅隆大學(cmu)的語言技術研究所(lti)。其中前兩年是碩士,但由於 lti 的碩士生活跟博士並沒有太大區別,都要做研究,所以說是八年博士也並不過分吧。單從長度就能看出,我的博士生涯並不是一帆風順的;之所以讀了這麼久,主要原因是換了兩次研究專案。這三個研究專案,各自給了我不同的體驗和感悟。

從入學到 2012 年春天,我跟隨金琴教授研究說話人識別。在這將近兩年的時間裡,我用 matlab 語言親自實現了十幾種語音特徵的提取,以及基於 gmm、gmm-ubm、svm、jfa 等技術的多種說話人識別系統。然而,我在這段時間裡的研究進展十分緩慢,最終並沒有追上當時的前沿;我的研究結果也並沒能寫成**發表出來,而只是形成了一篇技術報告。這裡面的原因,大概是因為我還沒能從「學習者」的心態轉換成「研究者」的心態。我總是想著把基礎打紮實,從而在理解和復現已有的技術上花了太多的時間 —— 2011 年的夏天,我曾經花了乙個多星期來推導 jfa 裡那些複雜的矩陣運算。在實驗設計上,我也沒能做到「抓大放小」,而是曾經拘泥於一些小細節,比如訓練資料和測試資料的劃分。這些原因,導致我還沒來得及走到「創新」這一步,研究專案就結束了。

然而,2014 年 6 月,當我在南韓臨津閣的觀光隊伍中排隊的時候,我從 facebook 上收到了實驗室的同學發來的噩耗:由於 cmu 所在的隊伍開發的系統在年度測評中表現不佳,我們的隊伍被淘汰了。到此時為止,我只發出了一篇一作**;另一篇一作**在此後經歷了五次拒稿,終於被我塵封。知乎上有乙個這樣的問題:博士第三年還沒有**文是一種怎樣的體驗?我想我是適合回答的,但終究沒有勇氣回答。

2014 年的下半年,算是我博士生涯的一段過渡期,這段時間我沒有什麼科研產出,而是把精力用在了給自己充電上。憑藉著唯一的一篇一作**,我參加了 2014 年 9 月在新加坡舉行的 interspeech 會議。在會上,我嗅到了深度學習正在崛起的訊號。整個秋季學期,我閱讀了會議上的近百篇**,還在 coursera 上學習了 geoffrey hinton 的深度學習課程。這讓我的博士生涯柳暗花明又一村。

關於博士生涯最終的研究課題,花哥當時給了我三個選擇。我已經不記得另外兩個選擇是什麼了;我選擇了「事件檢測」,只是因為它有去 facebook 實習的機會。我在 2015 年 1 月至 4 月在 facebook 進行了一次實習,這也是我唯一一次實習。由於版權的限制,我在 facebook 並沒能使用 cmu 的資料真正進行「事件檢測」的研究,而只是改進了 facebook 原有的語音/噪音分辨系統。從科研上來說,這次實習只是我對深度學習的一次練手;但它讓我在灣區交到了好多朋友,讓我覺得灣區是個好地方,從而產生了去 facebook 工作的理想。這個理想,現在就要實現了。

回到 cmu 以後,我才真正開始研究「事件檢測」。在研究的初期,我對「事件」還沒有明確的定義,既想檢測比較底層的事件,比如貓叫、狗叫、開門、關門,又想檢測比較高層的事件,比如球賽、婚禮、聚會等等。這些高層事件的檢測,是當時 cmu 正在參與的另乙個研究專案 aladdin 的目標;直到 2016 年 aladdin 專案漸漸收尾,我才把研究的焦點集中到底層事件的檢測上來。

之所以選擇研究底層事件,是因為它們是檢測高層事件的基礎,在還檢測不了底層事件時就去檢測高層事件,步子就邁得有點兒太大了。而隨著深度學習用於語音識別的最後一滴水漸漸被榨乾,人們自然會開始嘗試把深度學習用於別的東西的識別,底層事件檢測的研究條件已經成熟了:在 2016 年 3 月的 icassp 會議上,芬蘭 tempere 理工大學的研究組與我同時發表了用深度學習做底層事件檢測的**。

2016 年,我的研究一直被乙個困難所困擾,就是資料太少。我使用的資料,是實驗室裡的工作人員手工標註的,總共只有十幾個小時,根本無法用於深度學習。2017 年 3 月,google 發布了 audio set 資料集,它拯救了我的研究,讓我畢業的事情終於有了眉目。

剩下的事情,就是與預期的博士畢業時間爭分奪秒了。這段時間過得十分刺激。我原定於 2017 年 9 月博士開題,實際開題時間是 10 月 9 日,還算勉強趕上。今年 2、3 月的時候,我又一次鑽進了乙個細節的牛角尖(pytorch 與 theano 的效能差距),浪費了兩個月的時間。到了 4 月份,我注意到英國 surrey 大學的 @孔秋強 同學已經做出了一種基於注意力機制的、利用弱標註做事件檢測的新方法。這讓我幡然醒悟,跳出牛角尖,回到研究的主線上來。

我的**中最重要的兩章之一,就是比較了若干種利用弱標註做事件檢測的方法的優劣,並深入剖析效能差距產生的原因。這一章是 2018 年 6 月底完成的,與計畫的時間完全一致;而另一章的核心問題,則是 8 月 16 號在散步時才想出解決辦法的。9 月,我一邊繼續跑著一點兒本該在 8 月就跑完的實驗,一邊撰寫畢業**的文字;而 10 月 5 號答辯用的幻燈片,則是 9 月 30 號才做完初稿的。這場賽跑,直到 10 月 26 日晚上,我把畢業**最終定稿、把**整理好才結束。而此時,距離我爸媽來美國看我已經只剩 5 天了。

縱覽八年的博士生涯,不難發現,我由於自身及外界的各種因素,走了不少彎路。在三個研究專案中,只有最後乙個,才有博士研究的樣子。偶爾,我也會想:如果從一開始就做第三個專案就好了,這樣我就可以在四年之內畢業了。但我不會沉浸在這種情緒中。正如吃完第三個包子飽了不代表前兩個包子就白吃了一樣,我並不覺得我在 cmu 的前四年是荒廢了的。

整整八年的學習,讓我對語音識別、深度學習等各個領域的理論基礎有了紮實的掌握。花哥開了一門語音識別課,其中說話人識別那一講固定由我來講,學生們紛紛反饋說我講得比花哥清楚多了。同時,正是因為我涉獵過多個研究專案,我對與語音相關的多個研究領域都有了解並抱有興趣。開學術會議的時候,我總能挑出許多想聽的報告,馬不停蹄地輾轉於各個會場之間。而這種深度與廣度,則是不付出時間不可兼得的。

貧困博士生 我這十年最渴望的是錢

貧困博士生 我這十年最渴望的是錢 我出生的時候是乙個下雪的深夜,我的父親在床邊生了一堆柴火,我的母親躺在四周漏風的那間破屋角落的床上,咬緊牙關,生下了我。27年後,也是在乙個下雪的深夜,我完成了我的博士 當我打完最後乙個字的時候,我站起來,拉開窗簾,開啟窗戶,白天還吵吵鬧鬧 喧囂的世界變成一片潔白,...

貧困博士生 我這十年最渴望的是錢

source 我出生的時候是乙個下雪的深夜,我的父親在床邊生了一堆柴火,我的母親躺在四周漏風的那間破屋角落的床上,咬緊牙關,生下了我。27年後,也是在乙個下雪的深夜,我完成了我的博士 當我打完最後乙個字的時候,我站起來,拉開窗簾,開啟窗戶,白天還吵吵鬧鬧 喧囂的世界變成一片潔白,讓人頓感清淨。我從進...

我的八年程式之路(一)求職的艱辛

胡侃幾句 這不是 這是真實的,是我八年程式人生的回憶,13年由於自己性格的問題依然的離開了夢寐以求的好單位,應聘了一家離家不遠的汽配廠做副廠長,從此結束了八年的程式人生,前段時間在群裡偶然聊起我的人生,大傢伙都建議我寫成文字,那樣對年輕的程式設計師有啟發及幫助,由於我現在的工作輕鬆,空閒時間多,於是...