舉個栗子我對貝葉斯分類的理解

先說結論，貝葉斯分類=最大化後驗概率。

給定樣本\(x\)和所屬類別\(c\)，貝葉斯最優分類器欲最大化後驗概率\(p(c|x)\)。想實現這個目的可以通過判別模型（如決策樹、支援向量機等，直接對後驗概率建模），或生成模型（對聯合概率\(p(x,c)\)建模）。

對於生成模型，考慮：

\[p(c|x)=\frac

\]根據貝葉斯公式：

\[p(c|x)=\frac \varpropto p(c)p(x|c)

\]問題轉化為根據訓練資料來學習先驗概率\(p(c)\)和似然值\(p(x|c)\)。

先驗概率是好求的，根據大數定律，只要樣本足夠多，那麼\(p(c)\)近似等於各類別樣本佔樣本空間樣本數的比例。

\(p(x|c)\)涉及到關於\(x\)所有屬性的聯合概率，直接根據頻率估計是不行的，屬性空間的所有可能事件往往遠大於樣本空間。求似然值\(p(x|c)\)一般用極大似然估計，假設其服從某種分布，然後從訓練資料中學習分布引數。缺點就是需要對這種分布做出很好的估計，否則學習效果欠佳。

為了避開似然\(p(x|c)\)所有屬性聯合概率這個障礙，樸素貝葉斯分類器就假設所有屬性相互獨立，半樸素貝葉斯分類器假設屬性間有依賴，但只依賴乙個「父屬性」，貝葉斯網則用有向無環圖\(\mathcal dag\)刻畫屬性間的依賴關係，並使用條件概率表描述屬性間的聯合概率分布。乙個貝葉斯網由結構\(b\)和引數\(\theta\)構成，引數學習簡單，而結構學習則是np難問題，兩種方法近似求解最優網路結構：（1）貪心法，每次調整一條邊直到評分函式不再變化（評分函式的設計包含了我們對模型的歸納偏好）（2）給網路結構施加約束減少搜尋空間，比如限定為樹形結構。貝葉斯網的推斷也是np難問題，一般近似推斷常用吉布斯取樣，或者變分推斷。

舉個栗子我對貝葉斯分類的理解

貝葉斯的理解

貝葉斯的理解

基於概率的分類貝葉斯分類

舉個栗子 我對貝葉斯分類的理解

貝葉斯的理解

貝葉斯的理解

基於概率的分類 貝葉斯分類

相關推薦

舉個栗子我對貝葉斯分類的理解

基於概率的分類貝葉斯分類