貝葉斯分類器理論基礎

2022-06-12 07:18:08 字數 2188 閱讀 5257

貝葉斯分類器是乙個相當寬泛的定義,它背後的數學理論根基是相當出名的貝葉斯決策論。

貝葉斯決策論是在概率框架下進行決策的基本方法之一,更是統計模式識別的主要方法之一。

貝葉斯學派降調概率的主觀性,這一點和傳統的頻率學派不同。(概率論與數理統計相關知識不再贅述)

舉個例子:

假設乙個人拋了一枚均勻硬幣到地上並迅速將其踩在腳底,

而在他面前從近到遠坐了三個人。

他本人看到了硬幣是正面朝上的,而其他三個人也多多少少看到了一些資訊,但顯然坐得越遠、看得就越模糊。

頻率學派會認為,該硬幣是正是反,各自的概率都應該是50%;

但是貝葉斯學派會認為,對拋硬幣的人來說,硬幣是正面的概率就是100%,

然後可能對離他最近的人來說是80%,對離他最遠的人來說就可能是50%。

所以相比起把模型引數固定、注重樣本的隨機性的頻率學派而言,

貝葉斯學派將樣本

視為是固定的,把模型的引數視為關鍵。

在上面這個例子裡面,樣本就是丟擲去的那枚硬幣,模型的引數就是每個人從中獲得的「資訊」。

對於頻率學派而言,每個人獲得的「資訊」不應該有不同,

所以自然會根據「均勻硬幣丟擲正面的概率是50%」這個「樣本的資訊」來匯出「硬幣是正面的概率為50%」這個結論。

但是對貝葉斯學派而言,硬幣丟擲去就丟擲去了,

問題的關鍵在於模型的引數,亦即「觀察者」從中獲得的資訊,

所以會匯出「對於拋硬幣的人而言,硬幣是正面的概率是100%」這一類的結論。

在大致知道貝葉斯學派的思想後,就可以介紹貝葉斯決策論了。這裡不可避免地要牽

扯到概率論和數理統計的相關定義和知識,但幸運的是它們都是比較基礎且直觀的部分,

無須太多的數學背景就可以知道它們的含義。

無論是貝葉斯學派還是頻率學派,

乙個無法避開的問題就是如何從已有的樣本中獲取

資訊並據此估計目標模型的引數。

比較有名的「頻率近似概率」其實就是(基於大數定律

的)相當合理的估計之一,

本章所敘述的兩種引數估計方法在最後也通常會歸結於它。

如果把模型描述成乙個概率模型的話,

乙個自然的想法是希望得到的模型引數θ能夠使

得在訓練集x作為輸入時、型輸出的概率達到極大。

舉個例子:

假設乙個暗箱中有白球、黑球共兩個,雖然不知道具體的顏色分布情況,

但是知道這兩個球是完全一樣的。

現在有放有回地從箱子裡抽了2個球,發現兩次抽出來

的結果是1黑1白,

那麼該如何估計箱子裡面球的顏色?從直觀上來說,似乎箱子中也是

1黑1白會比較合理,

下面我們就來說明「1黑1白」這個估計就是極大似然估計。

在這個問題中,模型的引數θ可以設為從暗箱中抽出黑球的概率,

樣本x1可以描述為第

次取出的球是否是黑球:如果是就取1、否則取0。

直接對它求極大值(雖然可行但是)不太方便,通常的做法是將似然函式取對數之後

再進行極大值的求解

。相比起極大似然估計,極大後驗概率估計是更貼合貝葉斯學派思想的做法。

事實上其實也有不少人直接稱其為「貝葉斯估計」。

在討於論map估計之前,我們有必要先知道何為後驗概率p(x)。

它可以理解為引數

訓練集下所謂的「真實的出現概率」

在下一節具體討論樸素貝葉斯演算法時我們

會看到:

樸素貝葉斯在估計引數時選用了極大似然估計法,

但是在做決策時則選用了map

和極大似然估計相比,

map估計的乙個顯著優勢在於它可以引入所謂的「先驗知識」,

這正是貝葉斯學派的精髓。

當然這個優勢同時也伴隨著劣勢:它要求我們對模型引數有相

對較好的認知,否則會相當大地影響到結果的合理性。

既然先驗分布如此重要,那麼是否有比較合理的、先驗分布的選取方法呢?

事實上,

如何確定先驗分布這個問題,正是貝葉斯統計中最困難、最具有爭議性卻又必須解決的問

題。雖然這個問題確實有許多現代的研究成果,但遺憾的是,尚未能有乙個圓滿的理論和

普適的方法。

這裡擬介紹「協調性假說」這個比較直觀、容易理解的理論。

此時先驗分布又叫共軛先驗分布。

這裡面所謂的「同一型別」其實又是難有恰當定義

的概念,

但是可以直觀地理解為:概率性質相似的所有分布歸為「同一型別」。

比如,所有

的正態分佈都是「同一型別」的

貝葉斯分類器

程式設計實現貝葉斯分類器。編寫matlab函式,輸入為 a 均值向量 b c類問題的類分布的協方差矩陣 c c類的先驗概率 d 基於上述類的包含列向量的矩陣x。根據貝葉斯規則,輸出為乙個n維向量,它的第i列表示相應輸入向量x的第i列的類別。clear all clc mu 1 1 sigma 9 4...

貝葉斯分類器

首先在貝葉斯分類器之前先說貝葉斯理論 1 貝葉斯分類器 假設有n種可能的分類標記,即為y ij 是將乙個真實的標記cj的樣本誤分類為ci發損失,後驗概率p ci x 可獲得樣本x分類為ci的期望,則在樣本x上的 條件風險 是 我們需要最小化這個風險,也就是在每個樣本上選擇那個能使條件風險r c x ...

TCP IP理論基礎

一 tcp ip的分層模型 osi協議參考模型,它是基於國際標準化組織 iso 的建議發展起來的,它分為7個層次 應用層 表示層 會話層 傳輸層 網路層 資料鏈路層及物理層。這個7層的協議模型雖然規定得非常細緻和完善,但在實際中卻得不到廣泛的應用,其重要的原因之一就在於它過於複雜。但它仍是此後很多協...