機器學習領域存在一種較為通用的做法:
對所考慮的問題建模後,先為其構造乙個目標函式,通過優化求得一組最優引數,然後利用最優引數對應的模型來進行**。
因此,對於n-gram模型,並不需要儲存所有可能的概率引數,而是求解對問題建模後得到的目標函式的最優引數(通常好的建模可以使得最優引數的個數遠小於所有概率引數的個數),然後計算時對概率進行連乘即可。
對於統計語言模型,通常使用的目標函式為「最大似然函式」:
∏ w∈
cp(w
∣con
text
(w))
\prod_p(w|context(w))
w∈c∏p
(w∣c
onte
xt(w
))即,上下文為con
text
(w
)context(w)
contex
t(w)
時,該詞為w
ww的概率。
其中,c
cc為語料庫(corpus);
c on
text
(w
)context(w)
contex
t(w)
為詞w
ww的上下文(context)。對於n-gram模型,con
text
(wi)
=wi−
n+1i
−1
context(w_i)=w_^
contex
t(wi
)=w
i−n+
1i−1
。實際上,連乘可能導致概率值極小,因此,常採用「最大對數似然」,即目標函式為:
l =∑
w∈cl
ogp(
w∣co
ntex
t(w)
)將條件
概率p(
w∣co
ntex
t(w)
)視為關
於w和c
onte
xt(w
)的函式
=∑w∈
clog
f(w,
cont
ext(
w),θ
)l=\sum_log \space p(w|context(w)) \\ 將條件概率p(w|context(w))視為關於w和context(w)的函式 \\ =\sum_log \space f(w, context(w), \theta)
l=w∈c∑
log
p(w∣
cont
ext(
w))將
條件概率
p(w∣
cont
ext(
w))視
為關於w
和con
text
(w)的
函式=w
∈c∑
logf
(w,c
onte
xt(w
),θ)
其中,θ
\theta
θ為待定引數集。因此,一旦對上式進行優化得到最優引數集θ
∗\theta^*
θ∗後,f
ff也就唯一確定。
因此,只需要儲存最優引數集,而不需要事先計算並儲存所有的概率值。若選取合適的方法來建構函式,可以使得θ
\theta
θ中引數的個數遠小於n-gram模型中引數的個數。
參考部落格:word2vec-知其然知其所以然
二維ising模型概率c語言 伊辛模型中平均場理論
導致相變產生的物理量有 溫度t 壓強p等。這些物理量本質上影響的是 物質內部粒子間的相互作用 粒子自身的熱運動。1.狀態轉換成能量。2.能量轉換成概率。即出現這一狀態的概率,這就是玻爾茲曼分布。為玻爾茲曼常數。為配分函式 partition function 所有狀態下能量和,可看做是歸一化函式。為...
數學知識 概率統計(3) 隨機變數
本質1.隨機變數 random variable 2.分類 2.2 連續型隨機變數 3.總結 問題 概率函式 概率分布函式 概率質量函式 概率密度函式?參考隨機變數 函式 對映 概率函式 用函式的形式來表達概率 隨機變數函式 復合函式 所以,概率密度函式就是隨機變數和概率函式的復合函式。比如表示隨機...
非程式猿上手python系列 背景知識(二)
一門科學的發展離不開前人的貢獻。隨著學習的深入,你會發現 貢獻 一詞在程式裡是多麼的重要。我們要學會感恩,真因為別人的貢獻,才有的python的簡單。當然,我比較懶,就不介紹了,推薦看下廖老師的部落格 我們電腦是一堆硬體的集合,依賴作業系統才能執行起來。windows是只是常見的計算機作業系統之一。...