乙個句子是否合理,就看他的可能性大小如何。
概括來說:假定s表示某乙個有意義的句子,由一連串特定順序排列的詞w1
,w2,
...,
wn組成,這裡的n表示句子的長度。則概率p(s)表示上面句子的合理性。 p(
s)=p
(w1,
w2,.
..,w
n)利用條件概率公式: p(
w1,w
2,..
.,wn
)=p(
w1)p
(w2|
w1)p
(w3|
w1,w
2)..
.p(w
n|w1
,w2,
...,
wn−1
) 上式中,p(
w1) 表示第乙個詞出現的概率,p(
w2|w
1)是在已知第乙個詞的前提下,第二個詞出現的額概率,以此類推。簡答的看一下上面的公式,可以發現除了p(
w1) 以及後面的p(
w2|w
1)比較好算以外,其他的項計算難度都比較大。
**科學家馬爾科夫給出了乙個假設—–假設任意乙個詞wt
出現的概率隻同它前面的詞wt
−1有關。於是上面的公式就可以簡化為: p(
w1,w
2,..
.,wn
)=p(
w1)p
(w2|
w1)p
(w3|
w2).
..p(
wn|w
n−1)
上式對應的統計語言模型是二元模型。
對於上面公式的求解,可以利用貝葉斯公式: p(
wi|w
i−1)
=p(w
i−1,
wi)/
p(wi
−1)
其中p(w
i−1,
wi) 可以用樣本的相對頻率(樣本數量足夠)來統計。具體公式如下: p(
wi−1
,wi)
=n(w
i−1,
wi)/
n(wi
−1)
其中n(w
i−1,
wi) 代表在樣本中wi
−1,w
i 和前後相鄰出現了多少次。n(
wi−1
) 表示在樣本中wi
−1出現了多少次。
統計自然語言處理 自然語言處理是什麼?
自然語言是指中文 英語 西班牙語 法語 德語等等語言,作為人們日常使用的其他語言,它們對人類的交流有著重要作用。自然語言是隨著人類社會的發展而自然產生的語言,而不是由人類所特意創造的語言。自然語言是人們日常學習生活的重要工具和媒介,如果人類失去交流的能力,文明就失去了意義。總的來說,自然語言就是指人...
自然語言處理(N gram語言模型)
n gram語言模型 問題描述 由於公司業務產品中,需要使用者自己填寫公司名稱,而這個公司名稱存在大量的亂填現象,因此需要對其做一些歸一化的問題。在這基礎上,能延伸出乙個 使用者填寫的公司名是否有效的模型出來。目標 問題提出來了,就是想找到一種辦法來 使用者填寫的公司名是否有效?問題分析 要想 使用...
統計自然語言處理(詞法)
語法可分為詞法和句法 詞法 句法 現代漢語句法的主要內容包括,句子的基本結構 句子的類別 句子的表達形式三個方面。句子的基本結構也叫基本成分,包括主語 謂語 賓語 定語 狀語 補語六種成分。其中的主語 謂語 賓語是主要成分,定語 狀語 補語是附加修飾成分。而主語和謂語是句子的必要成分,缺一則不能成為...