一直以來,都在聽說貝葉斯概率模型,這裡記錄一下自己對貝葉斯概率模型的一些理解。
貝葉斯模型的建立主要有3個概念:1.先驗概率。2.最大似然函式。3.後驗概率
這3個概念怎麼建立聯絡呢,以投硬幣這個簡單的例子來理解最好。
例子:
首先為拋硬幣制定乙個規則:押一塊錢,拋10次硬幣,出現正面的次數小於等於6次就額外贏得一塊錢,否則就是輸掉押的一塊錢。
1.先驗概率:
根據概率論知識:拋硬幣實驗服從二項分布b(n,p),n是進行的實驗的次數,p是發生某種結果的概率,在這裡p就是出現正面的概率。
於是在拋硬幣實驗中,最重要的先驗資訊就是:拋一次硬幣,出現正面和反面的概率,是0.5,或者硬幣做了手腳,p不等於0.5。這個概率p就是預先知道的一些模型引數。反正我們是提前知道的,做了手腳還是沒做手腳。
2.最大似然函式:在給定的樣本資料下,找乙個概率分布函式或者概率密度函式(似然函式),使得這些已發生的事件(得到的樣本資料),出現的概率是最大的。
在拋硬幣的例子中,如果有資訊:有個人拋了10次硬幣,其中出現了9次正面,一次反面。
那麼現在就是要建立乙個概率密度函式來解釋這個現象。
下面根據先驗資訊,建立下面的似然函式:
y表示正面向上。
我們的目標是:在現有的觀測結果——拋了10次硬幣,其中出現了9次正面,一次反面:
讓p(y=y|r,n)取最大值。那麼 r 究竟等於多少,才能使得p(y=y|r,n)最大呢?也即 r 究竟取多少,才能使得拋了10次硬幣,其中出現了9次正面,一次反面 發生的概率是最大的?
下面式子取得最大值,就能解釋「拋了10次硬幣,其中出現了9次正面」這個現象。
為了更方便地計算最大值,對上面的概率分布取對數log,用l表示,得到下式:
l稱為似然函式。最大化p(y=y|r,n) 與 最大化 logp(y=y|r,n) 等價。取對數是為了計算上的方便
將 l 對 r 求偏導數,並且令偏導數等於0,其中n=10,y=9。解得 r = 0.9
就是說,r=0.9,才能解釋觀測到的現象。
這裡,大家一定對r是什麼感到好奇,其實,r就是拋一次硬幣,正面向上的概率p。這裡,我們提前已經知道了硬幣做了手腳,p不等於0.5,而根據最大釋然的概率密度函式的出的p確實不是0.5,符合先驗資訊。
下面對先驗資訊,和似然函式做個總結:
在上面我們解釋了兩個重要的概念:乙個是先驗資訊,另乙個是似然函式。所謂先驗資訊,就是在進行一次試驗之前,我們所掌握的一些資訊。比如拋硬幣試驗,我們掌握的先驗資訊是:
硬幣出現正面的概率和出現反面的概率相等,都為0.5
又或者是:
出現正面的概率和出現反面的概率不相等,出現正面的概率要大於出現反面的概率
似然函式則是指,我們現在擁有了一些樣本資料,或者說是進行了一些實驗,觀測到了一些資料。在觀測到的這些資料之後,如果基於這些觀測到的資料,為這些資料尋找乙個合適的模型,確定出該模型中的各個引數的值。比如上面的10次拋硬幣試驗,9次正面,1次反面,我們採用的模型是二項分布,模型中的引數 r 等於0.9 最為合適。
下一屆介紹後驗概率的應用。
貝葉斯 02 理解貝葉斯
首先簡略回顧一下,全概率和貝葉斯。其實這兩者是密不可分的,互相之間是乙個順序問題,全概率反過去就是貝葉斯,這類問題只需要區分清楚是知道原因求結果,還是知道結果尋原因就可以了。全概率公式是計算由諸多原因而導致的某件複雜事情發生的概率,而貝葉斯就是在這件複雜的事情已經發生的前提下,去尋找諸多原因中,某一...
貝葉斯的理解
用概率思考人生 問題 事件a發生後事件b發生的概率與事件b發生後事件a發生的概率這兩者有什麼關係 呢?這兩者之間存在確定的關係,貝葉斯公式描述的這是這兩者之間的確定關係 公式如下 p a b p ab p b p b a p a p b p b a p ab p a p a b p b p a 當p...
貝葉斯的理解
參考部落格 貝葉斯的介紹 貝葉斯本質就乙個條件概率公式p a b 也就是在b事件發生的情況下,a事件發生的概率。貝葉斯推斷是一種統計學方法,用來估量統計量的某種性質。英國數學家托馬斯 貝葉斯 thomas bayes 在1763年發表的一篇 中,首先提出了這個定理,因此為貝葉斯定理。貝葉斯定理 要理...