貝葉斯分類器是乙個相當寬泛的定義,它背後的數學理論根基是相當出名的貝葉斯決策論。
貝葉斯決策論是在概率框架下進行決策的基本方法之一,更是統計模式識別的主要方法之一。
貝葉斯學派降調概率的主觀性,這一點和傳統的頻率學派不同。(概率論與數理統計相關知識不再贅述)
舉個例子:
假設乙個人拋了一枚均勻硬幣到地上並迅速將其踩在腳底,
而在他面前從近到遠坐了三個人。
他本人看到了硬幣是正面朝上的,而其他三個人也多多少少看到了一些資訊,但顯然坐得越遠、看得就越模糊。
頻率學派會認為,該硬幣是正是反,各自的概率都應該是50%;
但是貝葉斯學派會認為,對拋硬幣的人來說,硬幣是正面的概率就是100%,
然後可能對離他最近的人來說是80%,對離他最遠的人來說就可能是50%。
所以相比起把模型引數固定、注重樣本的隨機性的頻率學派而言,
貝葉斯學派將樣本
視為是固定的,把模型的引數視為關鍵。
在上面這個例子裡面,樣本就是丟擲去的那枚硬幣,模型的引數就是每個人從中獲得的「資訊」。
對於頻率學派而言,每個人獲得的「資訊」不應該有不同,
所以自然會根據「均勻硬幣丟擲正面的概率是50%」這個「樣本的資訊」來匯出「硬幣是正面的概率為50%」這個結論。
但是對貝葉斯學派而言,硬幣丟擲去就丟擲去了,
問題的關鍵在於模型的引數,亦即「觀察者」從中獲得的資訊,
所以會匯出「對於拋硬幣的人而言,硬幣是正面的概率是100%」這一類的結論。
在大致知道貝葉斯學派的思想後,就可以介紹貝葉斯決策論了。這裡不可避免地要牽
扯到概率論和數理統計的相關定義和知識,但幸運的是它們都是比較基礎且直觀的部分,
無須太多的數學背景就可以知道它們的含義。
無論是貝葉斯學派還是頻率學派,
乙個無法避開的問題就是如何從已有的樣本中獲取
資訊並據此估計目標模型的引數。
比較有名的「頻率近似概率」其實就是(基於大數定律
的)相當合理的估計之一,
本章所敘述的兩種引數估計方法在最後也通常會歸結於它。
如果把模型描述成乙個概率模型的話,
乙個自然的想法是希望得到的模型引數θ能夠使
得在訓練集x作為輸入時、型輸出的概率達到極大。
舉個例子:
假設乙個暗箱中有白球、黑球共兩個,雖然不知道具體的顏色分布情況,
但是知道這兩個球是完全一樣的。
現在有放有回地從箱子裡抽了2個球,發現兩次抽出來
的結果是1黑1白,
那麼該如何估計箱子裡面球的顏色?從直觀上來說,似乎箱子中也是
1黑1白會比較合理,
下面我們就來說明「1黑1白」這個估計就是極大似然估計。
在這個問題中,模型的引數θ可以設為從暗箱中抽出黑球的概率,
樣本x1可以描述為第
次取出的球是否是黑球:如果是就取1、否則取0。
直接對它求極大值(雖然可行但是)不太方便,通常的做法是將似然函式取對數之後
再進行極大值的求解
。相比起極大似然估計,極大後驗概率估計是更貼合貝葉斯學派思想的做法。
事實上其實也有不少人直接稱其為「貝葉斯估計」。
在討於論map估計之前,我們有必要先知道何為後驗概率p(x)。
它可以理解為引數
訓練集下所謂的「真實的出現概率」
在下一節具體討論樸素貝葉斯演算法時我們
會看到:
樸素貝葉斯在估計引數時選用了極大似然估計法,
但是在做決策時則選用了map
和極大似然估計相比,
map估計的乙個顯著優勢在於它可以引入所謂的「先驗知識」,
這正是貝葉斯學派的精髓。
當然這個優勢同時也伴隨著劣勢:它要求我們對模型引數有相
對較好的認知,否則會相當大地影響到結果的合理性。
既然先驗分布如此重要,那麼是否有比較合理的、先驗分布的選取方法呢?
事實上,
如何確定先驗分布這個問題,正是貝葉斯統計中最困難、最具有爭議性卻又必須解決的問
題。雖然這個問題確實有許多現代的研究成果,但遺憾的是,尚未能有乙個圓滿的理論和
普適的方法。
這裡擬介紹「協調性假說」這個比較直觀、容易理解的理論。
此時先驗分布又叫共軛先驗分布。
這裡面所謂的「同一型別」其實又是難有恰當定義
的概念,
但是可以直觀地理解為:概率性質相似的所有分布歸為「同一型別」。
比如,所有
的正態分佈都是「同一型別」的
貝葉斯分類器
程式設計實現貝葉斯分類器。編寫matlab函式,輸入為 a 均值向量 b c類問題的類分布的協方差矩陣 c c類的先驗概率 d 基於上述類的包含列向量的矩陣x。根據貝葉斯規則,輸出為乙個n維向量,它的第i列表示相應輸入向量x的第i列的類別。clear all clc mu 1 1 sigma 9 4...
貝葉斯分類器
首先在貝葉斯分類器之前先說貝葉斯理論 1 貝葉斯分類器 假設有n種可能的分類標記,即為y ij 是將乙個真實的標記cj的樣本誤分類為ci發損失,後驗概率p ci x 可獲得樣本x分類為ci的期望,則在樣本x上的 條件風險 是 我們需要最小化這個風險,也就是在每個樣本上選擇那個能使條件風險r c x ...
TCP IP理論基礎
一 tcp ip的分層模型 osi協議參考模型,它是基於國際標準化組織 iso 的建議發展起來的,它分為7個層次 應用層 表示層 會話層 傳輸層 網路層 資料鏈路層及物理層。這個7層的協議模型雖然規定得非常細緻和完善,但在實際中卻得不到廣泛的應用,其重要的原因之一就在於它過於複雜。但它仍是此後很多協...