1) 多值正態分佈
多變數正態分佈描述的是n 維隨機變數的分布情況,這裡的μ變成了向量,σ也變成了矩陣σ。寫作n(μ,σ)。假設有n 個隨機變數x1 , x2, … , xn。μ的第i 個分量是e(x),而σii = var(xi ),σij = cov(xi,xj )。
概率密度函式如下:
其中|σ|是σ的行列式,σ是協方差矩陣,而且是對稱半正定的。
當μ是二維的時候可以如下圖表示:
其中μ決定中心位置,σ決定投影橢圓的朝向和大小。
如下圖:
對應的σ都不同。
2)模型分析與應用
如果輸入特徵x 是連續型隨機變數,那麼可以使用高斯判別分析模型來確定p(x|y)。
模型如下:
輸出結果服從伯努利分布,在給定模型下特徵符合多值高斯分布。通俗地講,在山
羊模型下,它的鬍鬚長度,角大小,毛長度等連續型變數符合高斯分布,他們組成
的特徵向量符合多值高斯分布。
這樣,可以給出概率密度函式:
最大似然估計如下:
注意這裡的引數有兩個μ,表示在不同的結果模型下,特徵均值不同,但我們假設
協方差相同。反映在圖上就是不同模型中心位置不同,但形狀相同。這樣就可以用
直線來進行分隔判別。
求導後,得到引數估計公式:
φ是訓練樣本中結果y=1 占有的比例。
μ0是y=0 的樣本中特徵均值。
μ1是y=1 的樣本中特徵均值。
σ是樣本特徵方差均值。
如前面所述,在圖上表示為
直線兩邊的y 值不同,但協方差矩陣相同,因此形狀相同。μ不同,因此位置不同。
3) 高斯判別分析(gda)與logistic 回歸的關係
將gda 用條件概率方式來表述的話,如下:
進一步推導出
這裡的θ是的函式。
這個形式就是logistic 回歸的形式。
也就是說如果p(x|y)符合多元高斯分布,那麼p(y|x)符合logistic 回歸模型。反之,
不成立。為什麼反過來不成立呢?因為gda 有著更強的假設條件和約束。
如果認定訓練資料滿足多元高斯分布,那麼gda 能夠在訓練集上是最好的模型。然
而,我們往往事先不知道訓練資料滿足什麼樣的分布,不能做很強的假設。logistic
回歸的條件假設要弱於gda,因此更多的時候採用logistic 回歸的方法。
ML 高斯判別分析
華電北風吹 天津大學認知計算與應用重點實驗室 日期 2015 12 11 高斯判別分析屬於生成模型,模型最終學習乙個特徵 類別的聯合概率。0 多維正態分佈 確定乙個多維正態分佈只需要知道分布的均值向量 rn 1 和乙個協方差矩陣 rn n 其概率密度函式如下 p x 1 2 n 2 1 2exp 1...
高斯判別分析模型
對於常見的分類演算法,經常用到的都是判別學習演算法,如 logistic二元分類器,還有softmax分類器等。它們都有乙個共同的特點,那就是我們直接去求 p y x 有時候也表示為 h x 這類方法的重點是去擬合引數 還有一種演算法 生成學習演算法。它的中心思想是直接去求p y x 很難,然後轉而...
ML 高斯判別分析
華電北風吹 天津大學認知計算與應用重點實驗室 日期 2015 12 11 高斯判別分析屬於生成模型,模型終於學習乙個特徵 類別的聯合概率。0 多維正態分佈 確定乙個多維正態分佈僅僅須要知道分布的均值向量 rn 1 和乙個協方差矩陣 rn n 其概率密度函式例如以下 p x 1 2 n 2 1 2ex...