NLP學習路徑(一) NLP基礎知識

2021-09-12 17:41:45 字數 1283 閱讀 1938

1、基本術語:

(1)分詞

分詞常用手段:基於字典的最長串匹配,但歧義分詞很難。比如:美國/會/通過法案。美/國會/通過法案。

(2)詞性標註

詞性:動詞、名詞、形容詞等

目的:表徵詞的一種隱藏狀態,隱藏狀態構成的轉移就構成了狀態轉移序列。比如:我/r愛/v中國/ns。其中,ns代表名詞,v是動詞,ns,v都是標註。

(3)命名實體識別

指從文字中識別具有特定類別的實體(通常是名詞),例如人名、地名、機構名、專有名詞等。

(4)句法分析

基於規則的專家系統。

目的:解析句子中各個成分的依賴關係。比如:小明是小張的老師。小張是小明的老師。這兩句話的詞袋模型一樣,但是主從關係不同。

(5)指代消解

中文中代詞出現的頻率很高,通常用來表徵前文出現過得人名,地名等。

(6)情感識別

情感識別是分類問題,通常應用在輿情分析方向。一般分為正面與負面情感。比如可以運用在商品評價,作為下一次評判的依據。

方法:基於詞袋模型+分類器;詞向量模型+rnn

(7)糾錯

有時候使用者會把內容輸錯,所以需要乙個糾錯系統。

方法:基於n-gram;字典樹;有限狀態機

(8)問答系統

類似siri

2、語料庫

(1)中文維基百科

(2)搜狗新聞語料庫

(3)imdb情感分析語料庫

3、nlp層面

(1)詞法分析

漢語的分詞和詞性標註。首先要做的是將輸入的文字切分為單獨的詞語,然後在此技術上進行更高的分析。

(2)句法分析

對輸入的文字以句子為單位,進行分析以得到句子的句法結構的處理過程。

方法:1)短語結構句法體系

作用:識別出句子中的短語結構以及短語之間的層次句法關係

2)依存結構句法體系(淺層句法分析)

作用:識別句子中詞與詞之間的相互依賴關係

3)深層文法句法分析

作用:詞彙化樹鄰接文法,組合範疇文法等對句子進行深層的句法及語義分析

(3)語義分析

方法:語義角色標註;基於邏輯表達的語義分析

nlp目前普遍主要採用級聯方式:分詞、詞性標註、句法分析、語義分析分別訓練模型。實際使用時,給定輸入句子,逐一使用各個模組進行分析,最終得到結果。

nlp也可以用聯合模型,將多個任務倆安和學習和解碼,比如:分詞與詞性結合,詞性與句法結合等。

參考:《python自然語言處理實戰 核心技術與演算法》

NLP基礎知識 一

中文分詞 word segmentation,ws 指的是將漢字序列切分成詞序列。因為在漢語中,詞是承載語義的最基本的單元。分詞是資訊檢索 文字分類 情感分析等多項中文自然語言處理任務的基礎。詞性標註 part of speech tagging,pos 是給句子中每個詞乙個詞性類別的任務。這裡的詞...

NLP基礎知識

1 聲學識別模型 將從麥克風收集來的聲音,進行一些訊號處理,將語音頻號轉化到頻域,從每10毫秒的語音中提出乙個特徵向量,提供給後面的聲學模型。聲學模型負責把音訊分類成不同的音素。接下來就是解碼器,可以得出概率最高一串詞串,最後一步是後處理,就是把單詞組合成容易讀取的文字。2 pomdp框架 3 ap...

NLP基礎知識

英文用nltk,中文用jieba,比較難處理的時候可能要借助正規表示式 2 derivation引申 影響詞性 walking walk walked walk went歸一成go are歸一成be 比如原本是are are,is is 標註後are v be,is v be 比如中文的 的,地,得...