問題:設計乙個分類器來區分鱸魚和鮭魚(兩分類問題)。首先,可以根據已知資訊假定下一條魚是鱸魚的「先驗概率」為$p(w_)$,下一條魚是鮭魚的「先驗概率」是$p(w_)$,則$p(w_)+p(w_)=1$(當然,在已知資訊很少的情況下,可以假定$p(w_)=p(w_)=0.5$)。具體而言,我們得找個方法來判斷下一條傳送帶上傳送過來的魚的類別。如果用$w$表示狀態類別,可設$w_$表示鱸魚,$w_$表示鮭魚。由於類別不確定,可設$w$是乙個由概率來描述的隨機變數。
顯然,我們不能只根據先驗概率判斷下一條魚的類別,因為這樣對每一條傳送過來的魚,我們都將得到相同的結果(顯然這是與實際不符的,很可能出錯的),而若是這樣,我們也並沒有利用現有的、傳送過來的魚的資訊(如光澤度等),就如「說美帝好的都是漢奸」這個謬誤的論斷,因為我們下的論斷是「凡是傳送過來的都是鮭魚」(假設鮭魚的先驗概率比較大)。所以更合理的判斷規則是,如果我們觀察到正傳送過來的魚的特徵$x$,我們就可以計算這條魚可能是鱸魚的概率$p(w_|x)$和可能是鮭魚的概率$p(w_|x)$;若$p(w_|x)>p(w_|x)$,則可判斷這條魚是鱸魚,反之是鮭魚。
對於特徵$x$,假定其為乙個連續隨機變數,其分布取決於類別狀態,表示成$p(x|w)$,即類別狀態為$w$時的$x$的概率密度函式。於是$p(x|w_)$與$p(x|w_)$之間的區別就表示了鱸魚和鮭魚之間特徵(如光澤度)的區別。
由條件概率的定義可知,處於類別$w_$且具有特徵值$x$的模式的聯合概率密度可寫成兩種形式:
\begin \label p(w_,x)=p(w_|x)p(x)=p(x|w_)p(w_).\end轉換一下,即為著名的貝葉斯公式:
\begin \label p(w_|x)=\frac)p(w_)}^p(x|w_)p(})} \end
通過以上公式,我們就可以通過觀察得到的特徵$x$和先驗概率$p(w_)$及概率密度函式$p(x|w_)$來計算後驗概率$p(w_|x)$。
下面來驗證一下為什麼$p(w_|x)>p(w_|x)$時,判斷真實類別是$w_$是一種好的決策(證明**於《模式識別》p9):
證明:假設$r_1$是$w_1$類對應的特徵空間,(同理,$r_2$對應於$w_$),其中$r_ \cap r_ = \emptyset$,且$r_\cup r_ = \mathbb$($\mathbb$表示$x$的所有可能值的集合。當然,可以這樣定義\(r_\)和$r_$:$r_=\ | p(x|w_) \ge p(x|w_)\},r_ = \| p(x|w_)
\begin\label \begin p_ & = p(x \in r_,w_)+p(x \in r_, w_)\\ & = \int_}p(w_|x)p(x) dx + \int_}p(w_|x)p(x) dx \end \end
又由條件概率的定義可得:
\begin \label p(w_) = \int_}p(w_|x)p(x) dx + \int_}p(w_|x)p(x) dx \end
結合式(\ref)和式(\ref)可得:
\begin \label p_= p(w_)-\int_}(p(w_|x)-p(w_|x))p(x) dx \end
由上式可以看出,我們選擇的決策方式是合理的。
讀書筆記 貝葉斯原理
頻率學派 貝葉斯學派 概率的定義 事件重複若干次後頻率的極限 事件發生的不確定程度 判別方法 沒有先驗概率 要求事件是可重複的 有先驗概率 描述不確定程度 置信區間或p值 後驗概率 求解方法 測量全世界大學生的平均身高 認為這是乙個確定值,用極大似然估計求解 認為不同值都有乙個概率,用貝葉斯定理求解...
模式分類之貝葉斯決策入門
初學模式分類,使用經典的duda教材。最初理解貝葉斯決策理論,無法理解 貝葉斯概率公式 我認為貝葉斯決策理論在描述這樣乙個事情 1 假設能夠用概率描述 世界的存在狀態 在我對概率最初的理解上,我總是認為概率是用來描述未發生的事情。比如拋一枚硬幣,正面的可能性是多少,在拋之前我們需要進行概率估計,所以...
模式識別 筆記01 貝葉斯決策論
統計決策理論是處理模式分類問題的基本理論之一,它對模式分析和分類器的設計有著實際的指導意義。貝葉斯 bayes 決策理論方法是統計模式識別中的乙個基本方法,用這個方法進行分類時要求 a.各類別總體的概率分布是已知的 b.要決策分類的類別數是一定的 目前最常用的決策規則有最小錯誤率貝葉斯決策和最小風險...