自然語言處理是包括了電腦科學、語言學心理認知學等一系列學科的一門交叉學科,這些學科性質不同但又彼此相互交叉。因此,梳理自然語言處理的發展歷程對於我們更好地 了解自然語言處理這一學科有著重要的意義。
1950 年圖靈提出了著名的「圖靈測試」,這一般被認為是自然語言處理思想的開端, 20 世紀 50 年代到 70 年代自然語言處理主要採用基於規則的方法,研究人員們認為自然語 言處理的過程和人類學習認知一門語言的過程是類似的,所以大量的研究員基於這個觀點來 進行研究,這時的自然語言處理停留在理性主義思潮階段,以基於規則的方法為代表。但是 基於規則的方法具有不可避免的缺點,首先規則不可能覆蓋所有語句,其次這種方法對開發 者的要求極高,開發者不僅要精通計算機還要精通語言學,因此,這一階段雖然解決了一些 簡單的問題,但是無法從根本上將自然語言理解實用化。
70 年代以後隨著網際網路的高速發展,豐富的語料庫成為現實以及硬體不斷更新完善, 自然語言處理思潮由理性主義向經驗主義過渡,基於統計的方法逐漸代替了基於規則的方 法。賈里尼克和他領導的 ibm 華生實驗室是推動這一轉變的關鍵,他們採用基於統計的方 法,將當時的語音識別率從 70%提公升到 90%。在這一階段,自然語言處理基於數學模型和統 計的方法取得了實質性的突破,從實驗室走向實際應用。
從 2008 年到現在,在影象識別和語音識別領域的成果激勵下,人們也逐漸開始引入深 度學習來做自然語言處理研究,由最初的詞向量到 2013 年 word2vec,將深度學習與自然語 言處理的結合推向了高潮,並在機器翻譯、問答系統、閱讀理解等領域取得了一定成功。深 度學習是乙個多層的神經網路,從輸入層開始經過逐層非線性的變化得到輸出。從輸入到輸 出做端到端的訓練。把輸入到輸出對的資料準備好,設計並訓練乙個神經網路,即可執行預 想的任務。rnn 已經是自然語言護理最常用的方法之一,gru、lstm 等模型相繼引發了 一輪又一輪的熱潮。
自然語言處理發展,主要存在哪些難點?
1.語言不規範,靈活性高 自然語言並不規範,雖然可以找一些基本規則,但是自然語言太靈活了,同乙個意思可以用多種方式來表達,不管是基於規則來理解自然語言還是通過機器學習來學習資料內在的特徵都顯得比較困難。2.錯別字 在處理文字時,我們會發現有大量的錯別字,怎麼樣讓計算機理解這些錯別字想表達的真正含義,...
自然語言處理NLP發展歷史
2001年 神經語言模型 2008年 多工學習 2013年 word嵌入 2013年 nlp的神經網路 迴圈神經網路 recurrent neural networks 卷積神經網路 convolutionalneural networks 和結構遞迴神經網路 recursive neural ne...
NLP入門之綜述閱讀 自然語言處理發展及應用綜述
4 自然語言處理的技術領域 4.2 自動文摘 5 自然語言處理的 和展望 總結青島理工大學 趙京勝等人 2019年7月 摘要 自然語言處理涉及許多領域,包括詞彙 句法 語義和語用分析,文字分類 情感分析 自動摘要 機器翻譯和社會計算等。隨著通訊和計算機相關技術的發展,自然語言處理的應用需求也越來越大...