機器學習 聊聊貝葉斯推斷的衍生思想

2021-08-11 13:43:20 字數 1624 閱讀 7315

又是貝葉斯?

之前在寫文章時有簡單聊聊樸素貝葉斯演算法的計算方式,回到那個簡單的例子,你在路上看到乙個黑人且比較高,你會十有**猜他是從非洲來的。

為什麼呢?因為在沒有其他可用資訊的前提下,一般來說大部分非洲人符合這種特徵,所以你會選擇最大概率是非洲人,這種思想就是貝葉斯思想。

乙個很有名的公式

如果大家上過概率論肯定對此有印象,該公式就是貝葉斯定理,它的創立者就是托馬斯·貝葉斯。該公式大概講述這麼乙個道理,現在有那麼乙個事件a存在,我們對事件a發生的概率有自己的主觀判定,為p(a)。在事件b發生後,我們認識到,事件a發生的概率由於事件b的發生導致了變化,此時事件a變化後的概率為p(a|b)。

舉個簡單的例子

簡單來說,你晚起床遲到的後驗概率是:

正規來寫:

貝葉斯推斷

貝葉斯思想在更新概率就是通過不斷得到新的證據來更新自己的信念,這種概率思維方式被稱為貝葉斯推斷。

假設,現在有乙個剛寫好但沒測過的**,一開始我們主觀認為自己寫的**bug應該在80%的機率可以通過編譯,如果編譯發生錯誤,則實際概率比80%要低,通過不斷的依靠資料來重新整理概率(信念)。

事實上,我們會隨著新的證據不斷更新之前的信念,但很少做出絕對的判斷,除非所有其他的可能性都被一一排除。

貝葉斯思維

頻率派

對頻率派而言,概率是事件在長時間內所發生的頻率。即一枚質地均勻的硬幣隨機拋了3次,3次都朝上,則說明向上的概率是100%。但是實際上明顯不是如此,一枚質地均勻的硬幣每次丟擲的正反概率各50%。事實上這受到資料樣本的影響,如果資料足夠大,在通常情況下可以通過頻率驗證去驗證概率,即大數定律。

貝葉斯派

對貝葉斯派而言,概率是對事件發生的信心。對已發生的事件如拋硬幣,可以多次嘗試得到結論,此時頻率可用。但對新任的**選舉則不能用頻率解決,但可以用先驗概率說明人們對該候選人當上**的信心(概率)是多少。

先驗概率和後驗概率

先驗概率是我們對事件a發生的信念,記為p(a)。

後驗概率是隨著證據的發生(新資料迭代)需要對事件a的信念發生改變,可以增加,減少或者不變,此時根據證據發生後所更新的對事件a的信念稱作p(a|x)。

加入「證據」

當我們新增更多的證據後,初始的信念會不斷被「洗刷」直到你對事件的主觀信念逼近客觀信念為止。

讓n表示我們擁有的證據的數量,如果n趨於無窮大,那麼貝葉斯的結果通常和頻率派的結果一致。

對於較小的n,通過引入先驗概率和返回概率結果(而不是某個固定值),保留了其不確定性,這種不確定性正是小資料集的不穩定性的反應。

機器學習 貝葉斯

bayes.py包含了所有函式的實現,需要做的是,明白各個函式的功能作用及輸入輸出,在指令碼中完成函式的呼叫,給出要求的格式的結果。from numpy import import csv import random random.seed 21860251 def loaddataset post...

機器學習 樸素貝葉斯

樸素貝葉斯原理 1.貝葉斯公式 2.樸素貝葉斯的模型 3.後驗概率最大化的含義 4.樸素貝葉斯的引數估計 4.1.特徵是離散值 假設符合多項式分布 4.2.特徵是稀疏的離散值 假設符合伯努利分布 4.3.特徵是連續值 假設符合正態分佈 5.樸素貝葉斯演算法過程 6.樸素貝葉斯演算法小結 scikit...

機器學習之貝葉斯

scikit learn 樸素貝葉斯類庫使用小結 demo 貝葉斯定理是18世紀英國數學家托馬斯 貝葉斯 thomas bayes 提出得重要概率論理論。以下摘一段 wikipedia 上的簡介 所謂的貝葉斯定理源於他生前為解決乙個 逆概 問題寫的一篇文章,而這篇文章是在他死後才由他的一位朋友發表出...