2023年4月13日 下午 07:03:00
發表者:google 研究員,吳軍
我們在前面的系列中介紹和提到了一些年輕有為的科學家,麥可·柯林斯,艾里克·布萊爾,大衛·雅讓斯基,拉納帕提等等,他們都出自賓夕法尼亞計算機系公尺奇·馬庫斯(mitch marcus)名下。就像許多武俠**中描寫的,**都成了各派的掌門,師傅一定了不得。的確,馬庫斯雖然作為第一作者發表的**並不多,但是從很多角度上講,他可以說是自然語言處理領域的教父。
馬庫斯教授長期當任賓夕法尼亞大學計算機系主任,直到他在幾年前從 at&t 找到皮耶爾替代他為止。作為乙個管理者,馬庫斯顯示出在自然處理和電腦科學方面的卓識的遠見。在指導博士生時,馬庫斯發現語料庫在自然語言處理中的重要性。馬庫斯嘔心瀝血,花了十幾年工夫建立了一系列標準的語料庫,提供給全世界的學者使用。這套被稱為 ldc 的語料庫,是當今全世界自然語言處理的所有學者都使用的工具。我們在以前的系列中講到,當今的自然語言處理幾乎都是使用給予統計的方法。要做統計,就需要大量有代表性的資料。利用這些資料開發乙個自然語言處理系統的過程,可以統稱為訓練。比如,我們要訓練乙個漢語分詞系統,我們需要一些已經分好詞的中文句子。當然這些句子需要有代表性。如果想知道乙個分詞系統的準確性,我們也需要一些人工分好詞的句子進行測試。這些人工處理好的文字資料庫,成為語料庫(corpus)。如果每個研究室都人工建立幾個語料庫,不僅浪費時間精力,而且發表文章時,資料沒有可比性。因此,馬庫斯想到了建立一系列標準的語料庫為全世界的學者用。他利用自己的影響力讓美國自然科學**會和 darpa 出錢立項,聯絡的多所大學和研究機構,建立的數百個標準的語料庫。其中最著名的是 penntree
bank 的語料庫。penntree bank 覆蓋多種語言(包括中文)。每一種語言,它有幾十萬到幾百萬字的有代表性的句子,每個句子都有的詞性標註,語法分析樹等等。ldc 語料庫如今已成為全世界自然語言處理科學家共用的資料庫。如今,在自然語言處理方面發表**,幾乎都要提供基於 ldc 語料庫的測試結果。
馬庫斯給予他的博士生研究自己感興趣的課題的自由,這是他之所以桃李滿天下的原因。馬庫斯對幾乎所有的自然語言處理領域有獨到的見解。和許多教授讓博士生去做他拿到**的專案,馬庫斯讓博士生提出自己有興趣的課題,或者用他已有的經費支援學生,或者為他們的專案區申請經費。馬庫斯高屋建瓴,能夠很快的判斷乙個研究方向是否正確,省去了博士生很多 try-and-error 的時間。因此他的學生有些很快地拿到的博士學位。
作為系主任,馬庫斯在專業設定方面顯示出卓識的遠見。我有幸和他在同乙個校務顧問委員會任職,一起討論計算機系的研究方向。馬庫斯在幾年前網際網路很熱門、很多大學開始網際網路研究時,看到 bioinformatics (生物資訊學)的重要性,在賓夕法利亞大學設定這個專業,並且在其他大學還沒有意識到時,開始招聘這方面的教授。馬庫斯還建議一些相關領域的教授,包括後來的系主任皮耶爾把一部分精力轉到生物資訊學方面。馬庫斯同時向他擔任顧問的其他一些大學提出同樣的建議。等到網路泡沫破裂以後,很多大學的計算機系開始向生物資訊學轉向,但是發現已經很難找到這些方面好的教授了。我覺得,當今中國的大學,最需要的就是馬庫斯這樣卓有遠見的管理者。
過幾天我又要和馬庫斯一起開顧問委員會的會議了,不知道這次他對電腦科學的發展有什麼見解。
數學之美 系列二十 自然語言處理的教父 馬庫斯
2007年4月13日 下午 07 03 00 發表者 google 研究員,吳軍 我們在前面的系列中介紹和提到了一些年輕有為的科學家,麥可 柯林斯,艾里克 布萊爾,大衛 雅讓斯基,拉納帕提等等,他們都出自賓夕法尼亞計算機系公尺奇 馬庫斯 mitch marcus 名下。就像許多武俠 中描寫的,都成了...
自然語言處理 統計語言模型(數學之美)
乙個句子是否合理,就看他的可能性大小如何。概括來說 假定s表示某乙個有意義的句子,由一連串特定順序排列的詞w1 w2,wn組成,這裡的n表示句子的長度。則概率p s 表示上面句子的合理性。p s p w1,w2,w n 利用條件概率公式 p w1,w 2,wn p w1 p w2 w1 p w3 w...
數學之美 系列十五 繁與簡 自然語言處理的幾位精英
發表者 吳軍,google 研究員 我在數學之美系列中一直強調的乙個好方法就是簡單。但是,事實上,自然語言處理中也有一些特例,比如有些學者將乙個問題研究到極致,執著追求完善甚至可以說完美的程度。他們的工作對同行有很大的參考價值,因此我們在科研中很需要這樣的學者。在自然語言處理方面新一代的頂級人物麥可...