面向機器學習的自然語言標註3 3 語言模型

3.3 語言模型

n元語法的好處是什麼呢？多年來自然語言處理已經利用n元語法開發了**序列行為的統計語言模型（language model）。序列行為涉及在包含多個x的序列中識別下乙個x。例如，語音識別、機器翻譯等。在給定前乙個元素的前提下語言模型**序列中的下乙個元素。

等價於：

請注意，這裡涉及兩個聯合概率分布的計算。我們假定用語料庫中的單詞序列的頻率來估計它的概率。即，

p(w1,?wi－1) = count(w1,?wi－1)

p(w1,?wi) = count(w1,?wi)

以下比率稱為相對頻率（relative frequency）：

注意：正如我們所看到的，n元語法例子中的聯合概率可以使用序列行為的鏈式法則表示為條件概率（conditional probability），如下：

它進一步可表示為：

原則上，如果計算整個詞序列的聯合概率，即便我們能夠估計構造**模型所需要的概率，我們也沒有機會擁有足夠的資料來進行這個工作。也就是說，有些詞序列可能從未在我們的語料庫**現過，但我們仍想能夠**其中所包含的這些元素的相關行為。為解決這個問題，我們可以對序列中元素的貢獻做一些簡化的假設。即，如果我們近似地認為序列中某個單詞的行為只與它前面的乙個單詞相關，則我們可以將n元概率

p(wi | w1 )

簡化為二元概率：

這就是馬爾科夫假設（markov assumption），使用它，我們就能得到語料庫中二元子串的一些合理統計結果。使用更早之前提到的相對頻率的概念，可以估計二元概率。如前所述，我們用語料庫中二元子串的出現次數除以語料庫中其字首（這裡指的是乙個單詞）出現的次數：

這個過程就是最大似然估計（maximum likelihood estimation，mle），它提供了用於建立語言模型的乙個相當直接的方式。第7章將繼續討論該話題。

總結本章介紹了分析語料庫語言學內容的工具以及執行統計分析需要的各種技術和工具。具體地，我們討論了如下內容：

語料庫分析包含統計和概率工具，執行推理統計時，這些工具可對語料庫和資訊進行資料分析。這對你進行語料庫標註以及在語料庫上訓練機器學習演算法而言是必不可少的資訊。

有必要區分語料庫中單詞的出現（詞例）和單詞本身（詞型）。

語料庫中詞例的總數是語料庫的大小。

語料庫中詞型的總數是詞彙表的大小。

語料庫中單詞的排序/頻率分布是根據單詞的詞例數給出的詞語排序。

單詞的頻譜是具有給定頻次的單詞的個數。

齊普夫定律是乙個冪次定律，它說明任何單詞的頻率與它的排序成反比。

對於許多自然語言處理應用，構造語料庫中詞語的n元子串是建立語言模型的第一步。

點互資訊是對文字中的乙個詞與另乙個詞之間依賴關係的度量。它可以用來判斷語料庫中的二元子串是否是真正的搭配。

可以基於馬爾科夫假設對**序列行為的語言模型進行簡化，即在**乙個單詞時只關注其前面的乙個單詞。

面向機器學習的自然語言標註3 3 語言模型

面向機器學習的自然語言標註2 4 語料庫的規模

自然語言處理（1）詞彙標註

自然語言處理之詞性標註

面向機器學習的自然語言標註3 3 語言模型

面向機器學習的自然語言標註2 4 語料庫的規模

自然語言處理（1） 詞彙標註

自然語言處理之詞性標註

相關推薦

自然語言處理（1）詞彙標註