NLP 2 語言模型

2021-09-25 01:43:31 字數 2254 閱讀 6711

馬爾科夫假設(markov assumption):乙個詞出現的概率僅依賴於它前面的乙個或幾個詞。

一元語言模型(unigram):即樸素貝葉斯假設。

三元語言模型(trigram):考慮乙個詞對前兩個詞的依賴關係。

關於給句子加開始符與結束符的問題(?):加開始符應該相應地加上結束符,至於為什麼,現在還不是很理解。

傳統語言模型的兩大缺點:稀疏性和泛化能力差。

稀疏性問題:n-gram模型只能對文字**現的單詞或者單詞組進行建模,當新的文字**現意義相近但是沒有在訓練文字**現的單詞或者單詞組的時候,傳統離散模型無法正確計算這些訓練樣本中未出現的單詞的應有概率,他們都會被賦予0概率**值,雖然傳統方法會引入平滑來解決0概率問題,但整體上,效果並沒有預想的好。

泛化能力問題:(1) 離散模型還依賴於固定單詞組合,需要完全的模式匹配,否則也無法正確輸出單詞組出現的概率。

(2) 馬爾可夫假設太強。人在對文字進行處理的時候,是能夠將很長一段上下文納入考慮,但是n-gram的離散模型只考慮待**單詞前面的n-1個單詞。

(3) 離散模型在計算上還存在「維度詛咒」的困難。從上面的公式可以看出,當我們將更多單詞組合挑出來之後才能更精準地**特定單詞組出現的概率,但是這種組合的量是非常大的。

前饋神經網路模型(fflm):主要用來解決稀疏性問題。先給每個詞在連續空間中賦予乙個向量(詞向量),再通過神經網路去學習這種分布式表徵。利用神經網路去建模當前詞出現的概率與其前 n-1 個詞之間的約束關係。很顯然這種方式相比 n-gram 具有更好的泛化能力,只要詞表徵足夠好。從而很大程度地降低了資料稀疏帶來的問題。但是這個結構的明顯缺點是僅包含了有限的前文資訊。

迴圈神經網路模型(rnnlm):主要用來解決泛化能力問題。

神經網路語言模型的優缺點:

優點:(1) 長距離依賴,具有更強的約束性;(2) 避免了資料稀疏所帶來的oov(out of vocabulary)問題;(3) 好的詞表徵能夠提高模型泛化能力。

缺點:(1) 模型訓練時間長;(2) 神經網路黑盒子,可解釋性較差。

語言模型評估指標(?):迷惑度/困惑度/混亂度(perplexity)

(1)一種定義(以下定義不是很理解):

p p=

∏t=1

t(1∑

j=1∣

v∣yj

ty^j

t)1/

tpp=\prod_^ (\frac^y_j^t \widehat_j^t})^

pp=t=1

∏t​(

∑j=1

∣v∣​

yjt​

y​jt

​1​)

1/t(2)另一種定義(基於交叉熵):

對於自然語言序列 w=w

1,w2

,…,w

nw=w_1,w_2,\dots,w_n

w=w1​,

w2​,

…,wn

​ ,每個詞的平均交叉熵為:

h (w

)=−1

nlog

p(w1

,w2,

…,wn

)h(w)=-\fraclogp(w_1,w_2,\dots,w_n)

h(w)=−

n1​l

ogp(

w1​,

w2​,

…,wn

​)在此基礎上,定義困惑度(perplexity) :

p er

plex

ity=

2h(w

)=1p

(w1,

w2,…

,wn)

nperplexity=2^ =\sqrt[n]}

perple

xity

=2h(

w)=n

p(w1

​,w2

​,…,

wn​)

1​​困惑度在語言模型中的物理意義可以描述為對於任意給定序列,下乙個候選詞的可選範圍大小。困惑度越小,說明所建模的語言模型越精確。

引用

NLP 2 語言結構和傳統pipeline

依賴語言符號 sign 定義更重要的概念 語言是一組符號,語法包含 一組signs,語言的詞典 lexicon 和有限的操作使乙個sign對映到另乙個 語法生成語言,當操作了一定數量次數的語法在他的詞典上 語法操作分為 上一章說的四個部分,同時進行 也有一些嚴格在morphology和syntax或...

NLP(四) 語言模型

這是一系列自然語言處理的介紹,本文不會涉及公式推導,主要是一些演算法思想的隨筆記錄。適用人群 自然語言處理初學者,轉ai的開發人員。程式語言 python 參考書籍 數學之美 參考教程 機器讀心術之自然語言處理 對於像漢語,英語這樣的大型自然語言系統,難以構造精確的文法 不符合人類學習語言的習慣 有...

NLP01 NLP基礎 語言模型

本次學習是根據貪心科技的李文哲老師的語言模型課程所整理的相關筆記,並加上自己的理解。內容包括 語言模型的介紹 chain rule 以及馬爾可夫假設 unigram,bigram,ngram 估計語言模型的概率 評估語言模型 perplexity add one 平滑,add k平滑 interpo...