1《數學之美》第3章 統計語言模型

2022-04-30 23:42:17 字數 2919 閱讀 8759

163mail:luomgf

目錄2、延伸閱讀:統計語言模型的工程訣竅

2.2 模型的訓練、零概率問題和平滑方法

語料庫\[\begin

p(s)=p(w_1,w_2,w3,\cdots,w_n)

\end\]

根據條件概率公式:

\[\begin

=p(w_1|)p(w_2|w_1)p(w_3|w_1,w_2),\cdots,p(w_i|w_1,w_2,w_3,\cdots,w_),p(w_n|w_1,w_2,w_3,\cdots,w_))

\end\]

根據馬爾可夫假設:

當n=2,二元模型

\]當n=3,三元模型

\[\begin

=p(w_1|)p(w_2|w_1)p(w_3|w_1,w_2)p(w_4|w_1,w_2,w_3)p(w_5|w_2,w_3,w_4),\cdots,p(w_i|w_,w_,w_),p(w_n|w_,w_,w_))

\end

\]n元模型

\[=p(w_1|)p(w_2|w_1)p(w_3|w_1,w_2),\cdots,p(w_i|w_,\cdots,w_),p(w_n|,w_,\cdots,w_))

\]馬爾可夫假設推導形成的常見語言模型

n=1unigram

一元語言模型

n=2bigram

二元語言模型

n=3trigram

三元語言模型

n=?n-gram

n元gram模型

對於任意給定單詞\(w_i\),\(p(w_i)\)當取二元模型時:

\[\begin

p(w_i) = \frac,w_i)})}

\label

\end

\]$ p(w_,w_i)\(是聯合概率,\)p(w_)$是邊緣概率。我們要計算這兩個的概率,需要用到大數定理。當有大量重複事件時,事件發生的頻率接近於概率。

\[\begin

f(w_,w_i)=\frac,w_i)}

\end

\]\[\begin

f(w_)=\frac)}

\end

\]當統計量足夠,相對頻度和概率就幾乎相等。(同時這個地方的假設我個人認為也是對我們的語料庫提出了要求。)

\[\begin

\end

\]\[\begin

\end

\]\[\begin

=\frac,w_i)}})}}

=\frac,w_i)})}

\end

\]聯合概率

邊緣概率

條件概率

馬爾可夫假設

大資料定理

語料庫相對頻度

費里尼克

馬爾可夫

李開復羅賽塔

n合適的取值是2-3

馬爾可夫假設侷限性和文字長程依賴性2.2.1 模型的訓練

使用語言模型的條件是得知道所有詞的出現條件概率值,然後將他們按照**的句子概率相乘得到句子概率。所以我們需要先計算每乙個的條件概率,這些概率值我們稱為模型的引數。通過對語料的統計,得到這些引數的過程稱作模型的訓練。

2.2.2 零概率問題

2.2.2.1 問題出現的原因

假如我們使用二元統計語言模型,根據前面的推理公式有:

\]\[\begin

=\frac,w_i)}})}}

=\frac,w_i)})}

\end

\]我們考慮以下兩種情況

2.2.2.2.2 0概率問題解決辦法

最直接的辦法:增加資料量,因為我們都知道根據大數定理,當量一定程度後其頻率都比較接近概率,因此我們對這些出現一次的再增加就可以使其逼近真實概率。

但是現實生活中大的資料量只是乙個相對的概念,因此最後都會面臨乙個0概率或者100%的問題。

\[\begin

n=\sum_^\infty rn_r

\end \]

這個的意思就是,比如出現100次的有「我」「你」「他」三個詞,則n=3*100=300

對於出現r次的詞在整個語料庫中的相對頻度則是:

\[\begin

出現r次的詞在整個語料庫中的相對頻度=rn_r/n

\end\]

現在我們看是如何運用的

如果r次數比較小--》統計不可考---〉需要調整---》這個地方我們調整次數即可---〉用\(d_r\)代替r--->其滿足如下古德圖靈公式:

$$d_r=(r+1)n_/n_r=(r+1)\frac}

$$同時以下等式也是成立的:

\(\sum_rd_r\cdot n_r=n\)

\[p(w_i|w_)= \left\

f(w_i|w_) &&& if \#(w_,w_i) >=t \\

f_(w_i|w_) &&& if 0<\#(w_,w_i)< t \\

q(w_) \cdot f(w_i) &&& otherwise \\

\end

\right.\]

\[q(w_)=\fracp(w_i|w_)}f(w_i)}\]

\[p(w_i|w_,w_)= \left\

f(w_i|w_}) &&& if \#(w_,w_,w_i) >=t \\

f_(w_i|w_,w) &&& if 0<\#(w_,w_,w_i)< t \\

q(w_,w_) \cdot p(w_i|w_) &&& otherwise \\

\end

\right.\]

zipf定律

卡茨退避法

不平滑模型,即條件概率大部分為0的模型。

概率估計,統計語言模型的訓練好壞的藝術就是在統計樣本不足的情況下如何更好的概率估計。

古德圖靈估計(good-turing estimate)

中文語料庫是否具備zipf定律,如何運用中文語料庫和英文語料庫進行重現。

163mail:luomgf

數學之美 統計語言模型

廣泛應用於 機器翻譯,語音識別,印刷體或手寫體的識別,拼音糾錯,漢字輸入和文獻查詢。馬爾科夫假設 n元模型 n 1階馬爾科夫假設 每個詞和前面的n 1個詞有關。n 1的一元模型就是上下文無關模型。實際應用中最多的是n 3的三元模型,更高階的很少使用。google的羅塞塔翻譯系統和語音搜尋系統使用的是...

數學之美(統計語言模型)

今天看了數學之美這本書,第三章統計語言模型,只是趣味掃盲類閱讀,並不涉及很深的數學知識。記錄之。驗證機器是否智慧型 最早提出機器智慧型設想的是計算機之父阿蘭.圖靈,他曾提出乙個方法 讓任何機器進行交流,如果人無法判斷自己交流的物件是人還是機器,那就說明這個機器有智慧型了。自然語言處理的彎路 最早的科...

《數學之美》讀想 第1章

昨天在圖書館找資料挖據相關入門級書的時候,偶然見看到了 數學之美 這本書以前就聽說過,同學也有這本書,就是沒看過。聽說這本書還不錯,就順便借了本看看。今天讀了第一章 文字和語言vs數字和資訊 感覺有些科普,從中知道了很多以前不知道的關於語言的事情,但是其中我感覺最重要的應該是作者能夠將語言和文字的一...