先驗概率
prior probability
在貝葉斯統計中,先驗概率分布,即關於某個變數 p 的概率分布,是在獲得某些資訊或者依據前,對 p 的不確定性進行猜測。例如, p 可以是搶火車票開始時,搶到某一車次的概率。這是對不確定性(而不是隨機性)賦予乙個量化的數值的表徵,這個量化數值可以是乙個引數,或者是乙個潛在的變數。
先驗概率僅僅依賴於主觀上的經驗估計,也就是事先根據已有的知識的推斷,
在應用貝葉斯理論時,通常將先驗概率乘以似然函式(likelihoodfunction)再歸一化後,得到後驗概率分布,後驗概率分布即在已知給定的資料後,對不確定性的條件分布。
似然函式
似然函式(likelihood function),也稱作似然,是乙個關於統計模型引數的函式。也就是這個函式中自變數是統計模型的引數。對於結果 x ,在引數集合 θ 上的似然,就是在給定這些引數值的基礎上,觀察到的結果的概率 l(θ|x)=p(x|θ) 。也就是說,似然是關於引數的函式,在引數給定的條件下,對於觀察到的 x 的值的條件分布。
似然函式在統計推測中發揮重要的作用,因為它是關於統計引數的函式,所以可以用來評估一組統計的引數,也就是說在一組統計方案的引數中,可以用似然函式做篩選。在非正式的語境下,「似然」會和「概率」混著用;但是嚴格區分的話,在統計上,二者是有不同。
不同就在於,觀察值 x 與引數 θ 的不同的角色。概率是用於描述乙個函式,這個函式是在給定引數值的情況下的關於觀察值的函式。例如,已知乙個硬幣是均勻的(在拋落中,正反面的概率相等),那連續10次正面朝上的概率是多少?這是個概率。
而似然是用於在給定乙個觀察值時,關於用於描述引數的情況。例如,如果乙個硬幣在10次拋落中正面均朝上,那硬幣是均勻的(在拋落中,正反面的概率相等)概率是多少?這裡用了概率這個詞,但是實質上是「可能性」,也就是似然了。
後驗概率
posterior probability
後驗概率是關於隨機事件或者不確定性斷言的條件概率,是在相關證據或者背景給定並納入考慮之後的條件概率。後驗概率分布就是未知量作為隨機變數的概率分布,並且是在基於實驗或者調查所獲得的資訊上的條件分布。「後驗」在這裡意思是,考慮相關事件已經被檢視並且能夠得到一些資訊。
後驗概率是關於引數 θ 在給定的證據資訊 x 下的概率: p(θ|x) 。
若對比後驗概率和似然函式,似然函式是在給定引數下的證據資訊 x 的概率分布: p(x|θ) 。
二者有如下關係:
我們用 p(θ) 表示概率分布函式,用 p(x|θ) 表示觀測值 x 的似然函式。後驗概率定義如下:
p(θ|x)=p(x|θ)p(θ)p(x)
鑑於分母不變,可以表達成如下正比關係:
posteriorprobability∝likelihood×prior probability
來先舉乙個例子:
如果有一所學校,有60%是男生和40%是女生。女生穿褲子與裙子的數量相同;所有男生穿褲子。乙個觀察者,隨機從遠處看到一名學生,觀察者只能看到該學生穿褲子。那麼該學生是女生的概率是多少?這裡題目中觀察者比如近似眼看直接不清性別,或者從裝扮上看不出。答案可以用貝葉斯定理來算。
用事件 g 表示觀察到的學生是女生,用事件 t 表示觀察到的學生穿褲子。於是,現在要計算 p(g|t) ,我們需要知道:
p(g) ,表示乙個學生是女生的概率,這是在沒有任何其他資訊下的概率。這也就是我們說的先驗概率。由於觀察者隨機看到一名學生,意味著所有的學生都可能被看到,女生在全體學生中的佔比是 40 ,所以概率是 0.4 。
p(b) ,是學生不是女生的概率,也就是學生是男生的概率,也就是在沒有其他任何資訊的情況下,學生是男生的先驗概率。 b 事件是 g 事件的互補的事件,這個比例是 60 ,也即 0.6 。
p(t|g) 是在女生中穿褲子的概率,根據題目描述,是相同的 0.5 。這也是 t 事件的概率,given g 事件。
p(t|b) 是在男生中穿褲子的概率,這個值是1。
p(t) 是學生穿褲子的概率,即任意選乙個學生,在沒有其他資訊的情況下,ta穿褲子的概率。如果要計算的話,那可以計算出所有穿褲子的學生的數量,除以總數,總數可以假設為常數 c ,但是最後會被約去。或者根據全概率公式 p(t)=p(t|g)p(g)+p(t|b)p(b) 計算得到 p(t)=0.5×0.4+1×0.6=0.8 。
基於以上所有資訊,如果觀察到乙個穿褲子的學生,並且是女生的概率是
p(g|t)=p(t|g)p(g)p(t)=0.5×0.40.8=0.25.
這就是貝葉斯公式的乙個示例,如果是兩個相關的屬性,我們只知道其中一些的概率分布情況,就可以根據貝葉斯公式來計算其他的一些後驗概率的情況。
極大似然估計和貝葉斯估計
極大似然估計和貝葉斯估計分別代表了頻率派和貝葉斯派的觀點。頻率派認為,引數是客觀存在的,只是未知而矣。因此,頻率派最關心極大似然函式,只要引數求出來了,給定自變數x,y也就固定了,極大似然估計如下所示:
d表示訓練資料集,
相反的,貝葉斯派認為引數也是隨機的,和一般隨機變數沒有本質區別,正是因為引數不能固定,當給定乙個輸入x後,我們不能用乙個確定的y表示輸出結果,必須用乙個概率的方式表達出來,所以貝葉斯學派的**值是乙個期望值,如下所示:
其中x表示輸入,y表示輸出,d表示訓練資料集,
該公式稱為全貝葉斯**。現在的問題是如何求
可惜的是,上面的後驗概率通常是很難計算的,因為要對所有的引數進行積分,不能找到乙個典型的閉合解(解析解)。在這種情況下,我們採用了一種近似的方法求後驗概率,這就是最大後驗概率。
最大後驗概率和極大似然估計很像,只是多了一項先驗分布,它體現了貝葉斯認為引數也是隨機變數的觀點,在實際運算中通常通過超引數給出先驗分布。
從以上可以看出,一方面,極大似然估計和最大後驗概率都是引數的點估計。在頻率學派中,引數固定了,**值也就固定了。最大後驗概率是貝葉斯學派的一種近似手段,因為完全貝葉斯估計不一定可行。另一方面,最大後驗概率可以看作是對先驗和mle的一種折衷,如果資料量足夠大,最大後驗概率和最大似然估計趨向於一致,如果資料為0,最大後驗僅由先驗決定。
**:
先驗概率 後驗概率 似然函式
以下以因果關係來刻畫先驗概率 後驗概率以及似然概率的關係。先驗概率 根據經驗得到的結果的概率 已知結果 後驗概率 在知道原因的情況下,求結果發生的概率 執因求果 似然概率 知道結果的情況下,求最可能導致結果發生的原因 知果求因 舉個例子 已知車禍有一定概率會導致堵車,此處車禍是因,堵車是果。p 堵車...
先驗概率 似然函式與後驗概率
先驗概率 prior probability 在貝葉斯統計中,先驗概率分布,即關於某個變數 p 的概率分布,是在獲得某些資訊或者依據前,對 p 的不確定性進行猜測。例如,p 可以是搶火車票開始時,搶到某一車次的概率。這是對不確定性 而不是隨機性 賦予乙個量化的數值的表徵,這個量化數值可以是乙個引數,...
先驗概率 似然函式與後驗概率
先驗概率 prior probability 在貝葉斯統計中,先驗概率分布,即關於某個變數 p 的概率分布,是在獲得某些資訊或者依據前,對 p 的不確定性進行猜測。例如,p 可以是搶火車票開始時,搶到某一車次的概率。這是對不確定性 而不是隨機性 賦予乙個量化的數值的表徵,這個量化數值可以是乙個引數,...