假設有兩類資料,每一類都有若干個樣本;概率生成模型認為每一類資料都服從某一種分布,如高斯分布;從兩類訓練資料中得到兩個高斯分布的密度函式,具體的是獲得均值和方差兩個引數;測試樣本輸入到其中乙個高斯分布函式,得到的概率值若大於0.5,則說明該樣本屬於該類,否則屬於另一類。
演算法的核心在於獲取分布函式的兩個引數。具體的做法是:利用訓練資料,構造似然函式,使得該似然函式最大的引數即為所求。事實上,一類資料的所有訓練樣本的均值和協方差即為所求。
得到其中一類的分布函式後,就可以對測試樣本進行測試分類:
下圖反映的是取樣本的兩個特徵進行視覺化的分類結果,可以看到只有47%的準確率。乙個原因是選擇的特徵沒有足夠的區分性,另外乙個原因是模型自身有問題
改進模型,使兩類資料共用同乙個協方差,均值不變。這裡的協方差由兩個類的協方差加權求和構成。
從下圖可以看到,分類準確率提高到73%,決策邊界也變成了直線
總結:1、概率生成模型的三個步驟:
2、分布函式不唯一,可以是高斯分布,也可能是伯努利分布,根據資料特點人工決定
3、概率生成模型的決策函式可以轉換成sigmoid函式:
4、判別模型和生成模型:前者直接計算求解w和b,後者通過求解分布函式的引數間接獲得w和b,區別在**?
一般認為判別模型的分類效果比生成模型略勝一籌,但當訓練資料較少時生成模型表現更好,而且生成模型對雜訊點更魯棒。從計算機複雜度來看,你認為呢?
機器學習筆記 概率
概率的理解 概率的一種理解是頻數的解釋,比如投硬幣,當投的次數無限多時,我們大概知道下次投出 head 的概率。另外一種解釋就是貝葉斯觀點,就是衡量事情的不確定性。貝葉斯觀點的好處在於,其不是基於重複事件的。而是基於先前的資訊,來 下乙個事件發生的概率。概率的基本性質在此略去,下面看看幾種典型的概率...
深度學習(八) 概率生成模型
最開始知道生成模型和判別模型,是在李航的統計學習方法裡,當時的理解是 生成模型,就是同時考慮了x和y的隨機性,也就是說二者都是隨機變數 判別模型,就是只考慮了y的隨機性,而x並不是個隨機變數,即使x存在於條件中,但是並沒有p x 這種說法。當時同時也知道了,樸素貝葉斯和隱馬爾可夫都是生成模型,最主要...
學習筆記 概率生成函式
如果對於數列 a 0 a 1 a 2 存在某個離散隨機變數 x 滿足 mathrm x i a i,那麼 a n n in mathbb n 的普通生成函式被稱為 x 的概率生成函式。也就是說,如果 x 是非負整數集 mathbb n 上的離散隨機變數,那麼x的概率生成函式為 f z mathbb ...