數學之美系列二十自然語言處理的教父馬庫斯

2023年4月13日下午 07:03:00

發表者：google 研究員，吳軍

我們在前面的系列中介紹和提到了一些年輕有為的科學家，麥可·柯林斯，艾里克·布萊爾，大衛·雅讓斯基，拉納帕提等等，他們都出自賓夕法尼亞計算機系公尺奇·馬庫斯(mitch marcus)名下。就像許多武俠**中描寫的，**都成了各派的掌門，師傅一定了不得。的確，馬庫斯雖然作為第一作者發表的**並不多，但是從很多角度上講，他可以說是自然語言處理領域的教父。

馬庫斯教授長期當任賓夕法尼亞大學計算機系主任，直到他在幾年前從 at&t 找到皮耶爾替代他為止。作為乙個管理者，馬庫斯顯示出在自然處理和電腦科學方面的卓識的遠見。在指導博士生時，馬庫斯發現語料庫在自然語言處理中的重要性。馬庫斯嘔心瀝血，花了十幾年工夫建立了一系列標準的語料庫，提供給全世界的學者使用。這套被稱為 ldc 的語料庫，是當今全世界自然語言處理的所有學者都使用的工具。我們在以前的系列中講到，當今的自然語言處理幾乎都是使用給予統計的方法。要做統計，就需要大量有代表性的資料。利用這些資料開發乙個自然語言處理系統的過程，可以統稱為訓練。比如，我們要訓練乙個漢語分詞系統，我們需要一些已經分好詞的中文句子。當然這些句子需要有代表性。如果想知道乙個分詞系統的準確性，我們也需要一些人工分好詞的句子進行測試。這些人工處理好的文字資料庫，成為語料庫(corpus)。如果每個研究室都人工建立幾個語料庫，不僅浪費時間精力，而且發表文章時，資料沒有可比性。因此，馬庫斯想到了建立一系列標準的語料庫為全世界的學者用。他利用自己的影響力讓美國自然科學**會和 darpa 出錢立項，聯絡的多所大學和研究機構，建立的數百個標準的語料庫。其中最著名的是 penntree

bank 的語料庫。penntree bank 覆蓋多種語言（包括中文）。每一種語言，它有幾十萬到幾百萬字的有代表性的句子，每個句子都有的詞性標註，語法分析樹等等。ldc 語料庫如今已成為全世界自然語言處理科學家共用的資料庫。如今，在自然語言處理方面發表**，幾乎都要提供基於 ldc 語料庫的測試結果。

馬庫斯給予他的博士生研究自己感興趣的課題的自由，這是他之所以桃李滿天下的原因。馬庫斯對幾乎所有的自然語言處理領域有獨到的見解。和許多教授讓博士生去做他拿到**的專案，馬庫斯讓博士生提出自己有興趣的課題，或者用他已有的經費支援學生，或者為他們的專案區申請經費。馬庫斯高屋建瓴，能夠很快的判斷乙個研究方向是否正確，省去了博士生很多 try-and-error 的時間。因此他的學生有些很快地拿到的博士學位。

作為系主任，馬庫斯在專業設定方面顯示出卓識的遠見。我有幸和他在同乙個校務顧問委員會任職，一起討論計算機系的研究方向。馬庫斯在幾年前網際網路很熱門、很多大學開始網際網路研究時，看到 bioinformatics (生物資訊學）的重要性，在賓夕法利亞大學設定這個專業，並且在其他大學還沒有意識到時，開始招聘這方面的教授。馬庫斯還建議一些相關領域的教授，包括後來的系主任皮耶爾把一部分精力轉到生物資訊學方面。馬庫斯同時向他擔任顧問的其他一些大學提出同樣的建議。等到網路泡沫破裂以後，很多大學的計算機系開始向生物資訊學轉向，但是發現已經很難找到這些方面好的教授了。我覺得，當今中國的大學，最需要的就是馬庫斯這樣卓有遠見的管理者。

過幾天我又要和馬庫斯一起開顧問委員會的會議了，不知道這次他對電腦科學的發展有什麼見解。

數學之美系列二十自然語言處理的教父馬庫斯

數學之美系列二十自然語言處理的教父馬庫斯

自然語言處理統計語言模型（數學之美）

數學之美系列十五繁與簡自然語言處理的幾位精英

數學之美 系列二十 自然語言處理的教父 馬庫斯

數學之美 系列二十 自然語言處理的教父 馬庫斯

自然語言處理 統計語言模型（數學之美）

數學之美 系列十五 繁與簡 自然語言處理的幾位精英

相關推薦

數學之美系列二十自然語言處理的教父馬庫斯

數學之美系列二十自然語言處理的教父馬庫斯

自然語言處理統計語言模型（數學之美）

數學之美系列十五繁與簡自然語言處理的幾位精英