發表者:吳軍,google 研究員
我在數學之美系列中一直強調的乙個好方法就是簡單。但是,事實上,自然語言處理中也有一些特例,比如有些學者將乙個問題研究到極致,執著追求完善甚至可以說完美的程度。他們的工作對同行有很大的參考價值,因此我們在科研中很需要這樣的學者。在自然語言處理方面新一代的頂級人物麥可 · 柯林斯 (michael collins
) 就是這樣的人。
柯林斯:追求完美
柯林斯從師於自然語言處理大師馬庫斯 (mitch marcus)(我們以後還會多次提到馬庫斯),從賓夕法利亞大學獲得博士學位,現任麻省理工學院 (mit) 副教授(別看他是副教授,他的水平在當今自然語言處理領域是數一數二的),在作博士期間,柯林斯寫了乙個後來以他名字命名的自然語言文法分析器 (sentence parser),可以將書面語的每一句話準確地進行文法分析。文法分析是很多自然語言應用的基礎。雖然柯林斯的師兄布萊爾 (eric brill) 和 ratnaparkhi 以及師弟 eisnar 都完成了相當不錯的語言文法分析器,但是柯林斯卻將它做到了極致,使它在相當長一段時間內成為世界上最好的文法分析器。柯林斯成功的關鍵在於將文法分析的每乙個細節都研究得很仔細。柯林斯用的數學模型也很漂亮,整個工作可以用完美來形容。我曾因為研究的需要,找柯林斯要過他文法分析器的源程式,他很爽快地給了我。我試圖將他的程式修改一下來滿足我特定應用的要求,但後來發現,他的程式細節太多以至於很難進一步優化。柯林斯的博士**
堪稱是自然語言處理領域的范文。它像一本優秀的**,把所有事情的來龍去脈介紹的清清楚楚,對於任何有一點計算機和自然語言處理知識的人,都可以輕而易舉地讀懂他複雜的方法。
柯林斯畢業後,在 at&t 實驗室度過了三年快樂的時光。在那裡柯林斯完成了許多世界一流的研究工作諸如隱含馬爾科夫模型的區別性訓練方法,卷積核在自然語言處理中的應用等等。三年後,at&t 停止了自然語言處理方面的研究,柯林斯幸運地在 mit 找到了教職。在 mit 的短短幾年間,柯林斯多次在國際會議上獲得最佳**獎。相比其他同行,這種成就是獨一無二的。柯林斯的特點就是把事情做到極致。如果說有人喜歡「繁瑣哲學」,柯林斯就是乙個。
布萊爾:簡單才美
在研究方法上,站在柯林斯對立面的典型是他的師兄艾里克 · 布萊爾 (eric brill
) 和雅讓斯基,後者我們已經介紹過了,這裡就不再重複。與柯林斯從工業界到學術界相反,布萊爾職業路徑是從學術界走到工業界。與柯里斯的研究方法相反,布萊爾總是試圖尋找簡單得不能再簡單的方法。布萊爾的成名作是基於變換規則的機器學習方法 (transformation rule based machine learning)。這個方法名稱雖然很複雜,其實非常簡單。我們以拼音轉換字為例來說明它:
第一步,我們把每個拼音對應的漢字中最常見的找出來作為第一遍變換的結果,當然結果有不少錯誤。比如,「常識」可能被轉換成「長識」;
第二步,可以說是「去偽存真」,我們用計算機根據上下文,列舉所有的同音字替換的規則,比如,如果 chang 被標識成「長」,但是後面的漢字是「識」,則將「長」改成「常」;
第三步,應該就是「去粗取精」,將所有的規則用到事先標識好的語料中,挑出有用的,刪掉無用的。然後重複二三步,直到找不到有用的為止。
布萊爾就靠這麼簡單的方法,在很多自然語言研究領域,得到了幾乎最好的結果。由於他的方法再簡單不過了,許許多多的人都跟著學。布萊爾可以算是我在美國的第乙個業師,我們倆就用這麼簡單的方法作詞性標註 (part of speech tagging),也就是把句子中的詞標成名詞動詞,很多年內無人能超越。(最後超越我們的是後來加入 google 的一名荷蘭工程師,用的是同樣的方法,但是做得細緻很多)布萊爾離開學術界後去了微軟研究院。在那裡的第一年,他一人一年完成的工作比組裡其他所有人許多年做的工作的總和還多。後來,布萊爾又加入了乙個新的組,依然是高產科學家。據說,他的工作真正被微軟重視要感謝 google,因為有了 google,微軟才對他從人力物力上給於了巨大的支援,使得布萊爾成為微軟搜尋研究的領軍人物之一。在研究方面,布萊爾有時不一定能馬上找到應該怎麼做,但是能馬上否定掉一種不可能的方案。這和他追求簡單的研究方法有關,他能在短時間內大致摸清每種方法的好壞。
由於布萊爾總是找簡單有效的方法,而又從不隱瞞自己的方法,所以他總是很容易被包括作者我自己在內的很多人趕上和超過。好在布萊爾很喜歡別人追趕他,因為,當人們在乙個研究方向超過他時,他已經調轉船頭駛向它方了。一次,艾里克對我說,有一件事我永遠追不上他,那就是他比我先有了第二個孩子 :)
在接下來了系列裡,我們還會介紹乙個繁與簡結合的例子。
自然語言處理 統計語言模型(數學之美)
乙個句子是否合理,就看他的可能性大小如何。概括來說 假定s表示某乙個有意義的句子,由一連串特定順序排列的詞w1 w2,wn組成,這裡的n表示句子的長度。則概率p s 表示上面句子的合理性。p s p w1,w2,w n 利用條件概率公式 p w1,w 2,wn p w1 p w2 w1 p w3 w...
數學之美 系列二十 自然語言處理的教父 馬庫斯
2007年4月13日 下午 07 03 00 發表者 google 研究員,吳軍 我們在前面的系列中介紹和提到了一些年輕有為的科學家,麥可 柯林斯,艾里克 布萊爾,大衛 雅讓斯基,拉納帕提等等,他們都出自賓夕法尼亞計算機系公尺奇 馬庫斯 mitch marcus 名下。就像許多武俠 中描寫的,都成了...
數學之美 系列二十 自然語言處理的教父 馬庫斯
2007年4月13日 下午 07 03 00 發表者 google 研究員,吳軍 我們在前面的系列中介紹和提到了一些年輕有為的科學家,麥可 柯林斯,艾里克 布萊爾,大衛 雅讓斯基,拉納帕提等等,他們都出自賓夕法尼亞計算機系公尺奇 馬庫斯 mitch marcus 名下。就像許多武俠 中描寫的,都成了...