NLP CS224n學習筆記一 NLP介紹

2021-08-08 18:00:40 字數 1495 閱讀 1395

1.什麼是自然語言處理?自然語言處理是做什麼的?自然語言處理難在**?

語言是表達人的想法以及人與人之間交流的工具,而自然語言處理則是讓計算機擁有處理人類語言的能力,從而讓計算機能夠使用和理解人類的語言。如今,自然語言處理在生活中應用已經很廣泛,尤其是蘋果的siri,谷歌的google assistant和alex,微軟的cortana和小冰。國內也有很多語音相關的應用,尤其是筆者所在的機械人行業,各種層出不窮的教育機械人、陪伴機械人、商務機械人無不在著消費者的眼球。而這些產品的基礎技術就是自然語言處理。

那麼自然語言處理到底是什麼?這是一門研究什麼,做什麼的學科呢?

首先我們來看wikipedia上的解釋:自然語言處理(英語:natural language processing,簡稱nlp)是人工智慧和語言學領域的分支學科。此領域**如何處理及運用自然語言;自然語言認知則是指讓電腦「懂」人類的語言。自然語言生成系統把計算機資料轉化為自然語言。自然語言理解系統把自然語言轉化為電腦程式更易於處理的形式。

自然語言處理的研究內容包括:

可以看到自然語言處理的範圍相當的廣泛,覆蓋了人類語言的方方面面。

2.nlp的研究等級

從上圖中可以看到,nlp的底層技術包括:建立在語音基礎上的拼音分析和音韻分析、建立在文字基礎上的標籤化。在這基礎之上的是結構分析、語法分析、語義理解、對話處理。結構分析分析的是句子的結構、語法分析分析的是詞或者字在句子中的角色、語義理解研究的是語句的深層次的含義、對話處理研究的是上下文處理或者推理。隨著等級從上往下,相應的研究領域難度越來越大。

3.一些nlp的應用

在消費領域一般有:

在工業領域:

可以看到nlp不管是在工業還是消費領域都是應用非常廣泛,並且已經和人們的生活和商業活動息息相關、緊密結合了。

4.自然語言的特殊之處

5.nlp的難點

nlp的難點分為3個:

6.nlp+dl

nlp和dl的結合即是用dl的方法和特徵去解決nlp的問題。

近年來,dl在nlp上的應用取得了巨大的進步具體表現在:

dl將每乙個詞表徵為乙個多維的向量,每乙個維度都表示著獨特的資訊。維度最少取25維,一般去200-300維,當然維度越多越好,但是隨著維度的提高計算效能也會受到影響,所以具體的維度在實踐中需要具體確定。

當用向量表示片語之後,詞向量可以進行計算,比如計算相似度,近義詞的向量比較接近,不同意義的詞向量相距較遠。

片語的向量化之後,就可以應用dl中的模型進行多種nlp任務的計算了,比如:依存句法、語義表示、情緒分析、自然語言生成、機器翻譯等等。

7.總結

本文是nlp的常識性介紹,介紹了nlp是什麼、研究什麼、有那些應用領域和產品;最後介紹了nlp和dl的結合。

在下篇博文中,將介紹片語向量化。

CS224n筆記一 開端

自然語言處理的目標是讓計算機處理或者 理解 自然語言,以完成有意義的任務,如qa等。形態學 morphological analysis 或稱詞法或者詞彙形態學。其研究詞的內部結構,包括屈折變化和構詞法兩個部分。句法分析 syntactic analysis 和語義分析 semantic inter...

CS224n學習筆記 Lecture1 2

開始的這部分主要是對dl4nlp的乙個簡介。個人理解,dl4nlp中,所有層級都是以向量的形式進行處理,用向量表示單詞 用向量表示句子等。向量是最靈活的形式,維度自由,可組成矩陣,可組成高維的tensor等。進行nlp等後續任務,首先需要輸入。輸入 主要有兩個,乙個是來自語音speech,乙個是來自...

CS224n學習筆記1 深度自然語言處理

一 什麼是自然語言處理呢?自然語言處理是計算機科學家提出的名字,本質上與計算機語言學是同義的,它跨越了計算機學 語言學以及人工智慧學科。自然語言處理是人工智慧的乙個分支,在計算機研究領域中,也有其他的分支,例如計算機視覺 機械人技術 知識表達和推理等。目標 讓計算機能夠理解人類語言來完成有意義的任務...