3.3 語言模型
n元語法的好處是什麼呢?多年來自然語言處理已經利用n元語法開發了**序列行為的統計語言模型(language model)。序列行為涉及在包含多個x的序列中識別下乙個x。例如,語音識別、機器翻譯等。在給定前乙個元素的前提下語言模型**序列中的下乙個元素。
等價於:
請注意,這裡涉及兩個聯合概率分布的計算。我們假定用語料庫中的單詞序列的頻率來估計它的概率。即,
p(w1,?wi-1) = count(w1,?wi-1)
p(w1,?wi) = count(w1,?wi)
以下比率稱為相對頻率(relative frequency):
注意: 正如我們所看到的,n元語法例子中的聯合概率可以使用序列行為的鏈式法則表示為條件概率(conditional probability),如下:
它進一步可表示為:
原則上,如果計算整個詞序列的聯合概率,即便我們能夠估計構造**模型所需要的概率,我們也沒有機會擁有足夠的資料來進行這個工作。也就是說,有些詞序列可能從未在我們的語料庫**現過,但我們仍想能夠**其中所包含的這些元素的相關行為。為解決這個問題,我們可以對序列中元素的貢獻做一些簡化的假設。即,如果我們近似地認為序列中某個單詞的行為只與它前面的乙個單詞相關,則我們可以將n元概率
p(wi | w1 )
簡化為二元概率:
這就是馬爾科夫假設(markov assumption),使用它,我們就能得到語料庫中二元子串的一些合理統計結果。使用更早之前提到的相對頻率的概念,可以估計二元概率。如前所述,我們用語料庫中二元子串的出現次數除以語料庫中其字首(這裡指的是乙個單詞)出現的次數:
這個過程就是最大似然估計(maximum likelihood estimation,mle),它提供了用於建立語言模型的乙個相當直接的方式。第7章將繼續討論該話題。
總結本章介紹了分析語料庫語言學內容的工具以及執行統計分析需要的各種技術和工具。具體地,我們討論了如下內容:
語料庫分析包含統計和概率工具,執行推理統計時,這些工具可對語料庫和資訊進行資料分析。這對你進行語料庫標註以及在語料庫上訓練機器學習演算法而言是必不可少的資訊。
有必要區分語料庫中單詞的出現(詞例)和單詞本身(詞型)。
語料庫中詞例的總數是語料庫的大小。
語料庫中詞型的總數是詞彙表的大小。
語料庫中單詞的排序/頻率分布是根據單詞的詞例數給出的詞語排序。
單詞的頻譜是具有給定頻次的單詞的個數。
齊普夫定律是乙個冪次定律,它說明任何單詞的頻率與它的排序成反比。
對於許多自然語言處理應用,構造語料庫中詞語的n元子串是建立語言模型的第一步。
點互資訊是對文字中的乙個詞與另乙個詞之間依賴關係的度量。它可以用來判斷語料庫中的二元子串是否是真正的搭配。
可以基於馬爾科夫假設對**序列行為的語言模型進行簡化,即在**乙個單詞時只關注其前面的乙個單詞。
面向機器學習的自然語言標註2 4 語料庫的規模
2.4 語料庫的規模 既然你已經知道想要尋找何種型別的資料以及如何表現它,那麼你還需要決定實際需要收集與標註多少資料。如果你計畫使用乙個已有的語料庫,那麼語料庫的總規模已經確定,但是你可能仍然需要決定對語料庫的多少內容進行標註。一般而言,無論標註目標是什麼,收集與標註的資料越多,就離達成目標越近。然...
自然語言處理(1) 詞彙標註
如何進行詞彙標註呢?首先進行資料預處理,例如如果給定的是句子,先要對句子進行分割 最簡單的標註器,可以給定詞彙使用得最頻繁的詞性作為標註器中該詞彙的詞性,但是由於詞彙存在二義性,使得這種標註準確度受限,通過上下文語境,可以在一定程度上解決這個問題,可以採用n gram標註器,此外,brill標註器具...
自然語言處理之詞性標註
詞性標註作為nlp領域的一項基本任務,其與分詞任務同等重要,是很多任務的基礎,比如句法分析,命名實體識別等。命名實體識別在一定程度上也屬於標註任務,不過,難度相比一般的詞性標註而言,上公升了不少。對於詞性標註而言,不論是中文還是英文,其難點在於對於不同的語境,詞性的多變化 另一方面,隨著社會的發展,...