貝葉斯分類決策規則:依據計算得到的後驗概率對樣本進行歸類
條件:先驗概率和類條件概率已知。
因此只要知道
p (w
j)p(w_j)
p(wj)
和p (x
∣wj)
p(x|w_j)
p(x∣wj
)就可以設計出貝葉斯分類器,而p(w
j)p(w_j)
p(wj)
和p (x
∣wj)
p(x|w_j)
p(x∣wj
)並不能預先知道,需要用樣本集中的資訊去進行估計,所以貝葉斯分類器的訓練就是通過樣本集中去估計p(w
j)p(w_j)
p(wj)
和p (x
∣wj)
p(x|w_j)
p(x∣wj
)。先驗概率p(w
j)p(w_j)
p(wj)
不是乙個分布函式,只是乙個值,表達了樣本空間中,各個樣本所佔的比例。
當樣本集數量足夠多,且來自於樣本空間的隨機選取時,可以用比例來估計p(w
j)p(w_j)
p(wj)
(大數定理)
如果不是隨機抽樣的,那麼就不能用佔比來估計p(w
j)p(w_j)
p(wj)
,這時可以假設p(w
j)p(w_j)
p(wj)
為1
c\frac
c1,c為樣本類數。
把p (w
j)p(w_j)
p(wj)
不看做乙個未知的常量,而看做乙個概率分布,可以任意設定p(w
j)p(w_j)
p(wj)
的初值,在已知類條件概率的情況下,計算訓練集中屬於某乙個類的所有樣本的後驗概率,然後將其數學期望來更新先驗概率。
p (x
∣wj)
p(x|w_j)
p(x∣wj
)是乙個概率密度函式,需要與訓練集中樣本特徵的分布情況進行估計,估計方法可以分為
引數估計是先假設樣本的概率密度具有某種確定的形式,比如正態分佈、二項分布,然後用現有的樣本,對分布的引數進行估計。常用的如下兩種
極大似然估計
把用於估計的所有樣本做為結果,把概率分布的引數作為條件,最有可能抽取到已知樣本集中所有樣本的概率分布引數,就是極大似然的引數,也就是我們能夠得到的最優引數的估計值。如採用極大似然估計來估計類條件概率需要滿足以下幾項基本條件
類條件概率的分布形式是已知的:θ
i\theta^i
θi訓練集中第i類的所有樣本:x
ix^i
xi訓練集中屬於第i
ii類的乙個樣本:xk∈
xix_k \in x^i
xk∈xi
樣本集x
ix^i
xi的θ
i\theta^i
θi似然函式:
以一維正態分佈為例
極大似然估計是把待估計的引數看做是確定性的未知量,然後根據樣本集的資料去求取該未知引數的最優估計值。
貝葉斯估計
把待估計引數看做是具有某種分布形式的隨機變數。通過對x
ix^i
xi類學習樣本的觀察,使概率密度分布p(x
i∣θi
)p(x^i|\theta^i)
p(xi∣θ
i)轉化為後驗概率p(θ
i∣xi
)p(\theta^i|x^i)
p(θi∣x
i),再通過求取後驗概率的數學期望來獲得θ
i\theta^i
θi的估計值。
不假設類的概率密度分布,直接用樣本集中,直接用樣本集中的資訊,來估計樣本的概率分布情況,非引數估計一般得到的是乙個數值模型。當完成非引數估計後,可以通過數值計算來獲得任何乙個樣本在某乙個類別**現的類條件概率值。
模式識別 貝葉斯分類器的C 實現
include include include include using namespace std const int maxn 1000 const double pi 3.1415926 ifstream cin1 female.txt ifstream cin2 male.txt ifst...
模式識別分類
摘自 模式識別導論 齊敏,李大健,郝重陽,清華大學出版社,2009.按照理論分類 統計模式識別 是定量描述的識別方法。以模式集在特徵空間中分布的類概率密度函式為基礎,對總體特徵進行研究,包括判別函式法和聚類分析法。是模式分類的經典型和基礎性技術,歷史最長,目前仍是模式識別的主要理論。句法模式識別 也...
模式識別(三)非線性分類器
遇到像圖1中所示的樣本分類,線性方法是無法發揮作用的。因為塔是線性不可分的,這時候必須採用非線性方法。多層感知器包含乙個以上隱層和乙個輸出層,隱層將輸入對映到乙個超立方體頂點,輸出層完成線性分類。通過隱層不斷對映,最終可以將樣本對映為線性可分。隱層中每個神經元相當於乙個超平面,超平面將樣本點對映到超...