樸素貝葉斯是一種基於貝葉斯定理的簡單概率分類器(分類又被稱為監督式學習,所謂監督式學習即從已知樣本資料中的特徵資訊去推測可能出現的輸出以完成分類,反之聚類問題被稱為非監督式學習),樸素貝葉斯在處理文字資料時可以得到較好的分類結果,所以它被廣泛應用於文字分類/垃圾郵件過濾/自然語言處理等場景。
了解貝葉斯定理前,我們需要先了解條件概率與全概率公式。
條件概率(conditional probability)是指在事件b發生的情況下,事件a發生的概率,用p(a|b)表示,讀作在b條件下的a的概率。
我們可以很清楚看到,在事件b發生的概率下,事件a發生的概率為:
同樣地,在事件a發生的條件下事件b發生的概率
將兩個式子合併,得到:
兩邊同時除以非0的p(b),得到貝葉斯定理
在貝葉斯定理中,每個名詞都有約定俗成的名稱:
'''p(b|a) / p(b)也有時被稱作標準似然度(standardised likelihood),貝葉斯定理可表述為:p(a|b)是已知b發生後,a的條件概率,也由於得自b的取值而被稱作a的後驗概率。
p(a)是a的先驗概率(或邊緣概率)。之所以稱為"先驗"是因為它不考慮任何b方面的因素。
p(b|a)是已知a發生後,b的條件概率。也由於得自a的取值而被稱作b的後驗概率。
p(b)是b的先驗概率。
'''
後驗概率 = 標準似然度*先驗概率
假定樣本空間s,是兩個事件a與a'的和
藍色部分為a,綠色為a',即a的補集,他們共同構成了樣本空間s。
那麼,對於事件b,可以看成2部分,p(ab)與p(a'b)。
即由條件概率可知,
那麼,有全概率公式。
一所學校裡面有 60% 的男生,40% 的女生。男生總是穿長褲,女生則一半穿長褲一半穿裙子。有了這些資訊之後我們可以容易地計算「隨機選取乙個學生,他(她)穿長褲的概率和穿裙子的概率是多大」,這個就是前面說的「正向概率」的計算。然而,假設你走在校園中,迎面走來乙個穿長褲的學生(很不幸的是你高度近似,你只看得見他(她)穿的是否長褲,而無法確定他(她)的性別),你能夠推斷出他(她)是男生的概率是多大嗎?
記長褲為事件a,短裙為事件b,男生為事件m,女生為f,那麼我們需要求p(m | a),由貝葉斯公式有:
由全概率公式有:
那麼可以看到,本來,男生都穿長褲,概率是0.6,在知道穿長褲的條件下,是男生的後驗概率就增加了為0.75。
下面展示貝葉斯定理在檢測吸毒者時的應用。假設乙個常規的檢測結果的靈敏度和特異度均為99%,即吸毒者每次檢測呈陽性(+)的概率為99%。而不吸毒者每次檢測呈陰性(-)的概率為99%。從檢測結果的概率來看,檢測結果是比較準確的,但是貝葉斯定理卻可以揭示乙個潛在的問題。假設某公司對全體雇員進行吸毒檢測,已知0.5%的雇員吸毒。請問每位檢測結果呈陽性的雇員吸毒的概率有多高?
基於貝葉斯定理:即使100%的胰腺癌症患者都有某症狀,而某人有同樣的症狀,絕對不代表該人有100%的概率得胰腺癌,還需要考慮先驗概率,假設胰腺癌的發病率是十萬分之一,而全球有同樣症狀的人有萬分之一,則此人得胰腺癌的概率只有十分之一,90%的可能是是假陽性。
基於貝葉斯定理:假設100%的不良種子都表現a性狀,而種子表現a性狀,並不代表此種子100%是不良種子,還需要考慮先驗概率,假設一共有6萬顆不良種子,在種子中的比例是十萬分之一(假設總共有60億顆種子),假設所有種子中有1/3表現a性狀(即20億顆種子表現a性狀),則此種子為不良種子的概率只有十萬分之三。
機器學習 第一章貝葉斯定理及其應用
貝葉斯統計都是以條件概率,聯合概率為基礎的,所以我們從概率,條件概率,聯合概率開始,然後到貝葉斯定理,最後講乙個貝葉斯的應用 垃圾郵件的過濾 概率 事件發生的可能性,比如拋一枚硬幣,正面向上的可能性有50 擲色子點數為6的可能性為1 6。我們用符號表示為p a 條件概率 滿足某些條件下事件發生的可能...
機器學習入門 1 機器學習的通俗介紹
什麼是機器學習?此處給出了機器學習的兩個定義。亞瑟 塞繆爾 arthur samuel 將其描述為 機器學習賦予計算機無需明確程式設計就能學習的能力。這是乙個古老的 非正式的定義。tom mitchell給出了乙個更現代的定義 乙個電腦程式被認為是從經驗e中學習關於某類任務t和效能度量p的經驗,如果...
機器學習筆記之 遷移學習
關於遷移學習不錯的博文,值得學習 1.2.a survey on transfer learning,sinno jialinpan,qiang yang,ieee trans 個人關於遷移學習的粗淺理解 在機器學習領域,我們的任務是對乙個模型給定充足的資料,對機器學習模型進行訓練 微調和優化,得到...