從統計學看NLP之概述(1)

2021-09-27 02:02:48 字數 2277 閱讀 3114

在我看來nlp的所有思想都是基於統計學來的,不管是hmm,crf還是說目前火熱的神經網路,而目前入行nlp領域的同學可能大部分都沒有接觸過其中的統計學原理,所謂的神經網路沒可解釋性也導致大家沒興趣去研究為什麼nlp的神經網路要這麼去設計。

說到機器翻譯,目前大部分都是採用seq2seq的模型,如果你是乙個不懂ai的coder,leader需要你開發乙個中英翻譯系統,你會怎麼做呢?

假如,我們手上已經有了乙個中英詞典,在不考慮語法的情況下,對於乙個句子,首先對其進行分詞,然後查閱詞典,找到每個詞對應的英文,即可翻譯完成,這個模組我們成為tm(translation model)。

例如,我們有這樣乙個句子csdn的部落格有意思,分詞後csdn|的|部落格|有|意思,對照詞典後翻譯結果為csdn|of|the blog|intresting,我們把這種直譯的結果叫做broken english,可以看到,如果採用1-1對應的方式來進行直接翻譯,那麼在語序方面肯定是由問題的。

為了解決語序的問題,有乙個最笨的辦法,我們統計出所有詞的排列方式,例如在上面的例子中,還有可能是

of|csdn|the blog|intresting

intresting|csdn|of|the blog

the blog|csdn|of|intresting

...

等等,一共有24種排列方式即4!

拿到所有的排列方式後,我們需要乙個工具,而這個工具呢,他能計算出所有的排列是正常語序的概率,最後我們選擇出概率最高的句子作為我們的翻譯結果。這裡提到的工具,就是nlp的核心lm(language model),lm有很多包括hmm、crf還有目前熱門的bert等等。lm我們之後再說,先回過頭來繼續看咋們的翻譯,對於這個模型有沒有什麼缺點呢?很明顯,在第二個階段,時間複雜度很高,如果序列的長度是n,那麼時間複雜度就是o(n!),並且還分成了兩個任務,有沒有什麼辦法能提高效率呢?這就是在nlp領域中最出名的vertbi維特比演算法,這裡我們簡單介紹下其原理,之後還會再詳細介紹。

我們設c表示的是中文,e表示的是英文,那麼翻譯任務的目標就是最大化p(e

∣c

)p(e|c)

p(e∣c)

,而我們的tm主要是用來進行翻譯,可以表示為p(c

∣e

)p(c|e)

p(c∣e)

,lm是用來判斷當前的組合是不是人話,可以表示為p(e

)p(e)

p(e)

,根據貝葉斯定理我們可以得到

p (e

∣c)=

p(c∣

e)p(

e)p(

c)

p(e|c) = \frac

p(e∣c)

=p(c

)p(c

∣e)p

(e)​

因為我們是把中文翻譯成英文,所以不管是什麼句子,p(c

)p(c)

p(c)

都是一樣的,可以看做乙個常數項,因此我們可以把目標簡化為最大化

p (e

∣c)=

p(c∣

e)p(

e)

p(e|c) = p(c|e)p(e)

p(e∣c)

=p(c

∣e)p

(e)總結一下,維特比演算法就是給定tm與lm找出最優值的使得p(c

∣e)p

(e

)p(c|e)p(e)

p(c∣e)

p(e)

最大,維特比演算法把上面提到方法合二為一,讓時間複雜度從指數級別降低到了多項式級別。

還是以翻譯為例子,乙個好的語言模型,要考慮到語序問題,例如下面的兩個句子,好的語言模型左邊的句子概率應該要比右邊大。

p(i like studing nlp) > p(i like nlp studing)
那麼如何計算這個p()呢,根據聯合概率我們可以計算出

p(i like studing nlp) = p(i)·p(like|i)·p(studing|i,like)·p(nlp|i,like,studing)
對於第一項p(i)很好計算,但是對於句子越後面的項p(nlp|i,like,studing)其條件概率是很難計算的,因此為了簡化計算過程,nlp界的大佬們採用了markov assumption馬爾科夫假設,即用以下的方式來近似表示聯合概率

上面的方法統稱為n-gram,考慮了幾個詞就是幾gram。

to be continue…

從統計學的角度看線性回歸

線性回歸是機器學習中常用的一種監督學習方法。常被用於選擇重要特徵和構造基學習器。本文將用統計學中極大似然估計和貝葉斯統計的方法推導線性回歸及正則化。極大似然估計的核心思想是找出一組引數值,使得在該引數值下,訓練樣本被觀察到的概率最大。在以下推導中,w 為回歸係數,w w0,w1,w m 1 t t ...

統計學從掛科到滿分 筆記1

統計學是收集和分析資料的科學與藝術 統計學的構成要素 問題,資料,方法 方法跟著資料走,資料跟著問題走 發展階段 古典統計學 近代統計學 現代統計學 分類 1 分類 2分類 1 按測量尺度分 分類 2 分類 3 按時空狀態分 分類 4 按表現形式分 分類 5 按資料結構分 總體 所有物件的總稱,分為...

統計學基礎 周計畫1

資料離散程度 概念 一組資料 現次數最多的數,眾數可以是多個,也可以沒有。舉個栗子 0,0,1,1,2,3 中的眾數是0和1,0,1,2,3 中沒有眾數,0,1,2,1 中的眾數是1。概念 一組資料中,中間位置的那個數,假設n為奇數,排序之後中間的那個值就是中位數,如果n是偶數,排序之後中間兩個數的...