20世紀80年代更早提出的分詞方法大部分是基於詞表進行的,稱為基於詞表分詞方法。近10年來,隨著統計方法的迅速發展,人們提出很多基於統計的模型分詞方法和規則方法與統計方法相結合的分詞技術,稱為基於統計模型的分詞方法。
假設隨機變數s為乙個漢字序列,w是s上所有可能切分出來的詞序列,分詞過程應該是求解條件概率p(w|s)最大的詞序列w',即
w' = argwmaxp(w|s) -------------------------------1
根據貝葉斯公式:p(ab) = p(a)p(b|a)
= p(b)p(a|b)
1式變為:
w' = argwmaxp(w)p(s|w)/p(s) --------2
由於分母為歸一化因子,因此2式變為:
w' = argwmaxp(w)p(s|w) -----------------------3
統計語言模型
語言模型就是用來計算乙個句子的概率的模型,即p w1,w2,wk 利用語言模型,可以確定哪個詞序列的可能性更大,或者給定若干個詞,可以 下乙個最可能出現的詞語。舉個音字轉換的例子來說,輸入拼音串為nixianzaiganshenme,對應的輸出可以有多種形式,如你現在幹什麼 你西安再趕什麼 等等,那...
統計語言模型(SLM)
摘自 第12講 slm廣泛使用於語音識別和統計機器翻譯領域,利用概率統計理論研究語言。規則方法 詞 句 篇章的生成比如滿足某些規則,不滿足該規則就不應存在。統計方法 任何語言片斷都有存在的可能,只是可能性大小不同 對於乙個文件片段d w1w2 wn,統計語言模型是指概率p w1w2 wn 求解,根據...
統計語言模型(下)
p wi wi 1 就是這兩個數的比值,再考慮到上面的兩個概率有相同的分母 語料庫大小 可以約掉,所以p wi wi 1 wi 1,wi wi 1 現在你是否感受到數學的美妙?它把一些複雜的問題變得如此簡單。似乎難以相信,這麼簡單的數學模型能解決複雜的語音識別 機器翻譯等問題,而很複雜的文法規則和人...