高斯判別分析

2021-08-15 07:27:05 字數 1771 閱讀 3835

1) 多值正態分佈

多變數正態分佈描述的是n 維隨機變數的分布情況,這裡的μ變成了向量,σ也變成了矩陣σ。寫作n(μ,σ)。假設有n 個隨機變數x1 , x2, … , xn。μ的第i 個分量是e(x),而σii = var(xi ),σij = cov(xi,xj )。

概率密度函式如下:

其中|σ|是σ的行列式,σ是協方差矩陣,而且是對稱半正定的。

當μ是二維的時候可以如下圖表示:

其中μ決定中心位置,σ決定投影橢圓的朝向和大小。

如下圖:

對應的σ都不同。

2)模型分析與應用

如果輸入特徵x 是連續型隨機變數,那麼可以使用高斯判別分析模型來確定p(x|y)。

模型如下:

輸出結果服從伯努利分布,在給定模型下特徵符合多值高斯分布。通俗地講,在山

羊模型下,它的鬍鬚長度,角大小,毛長度等連續型變數符合高斯分布,他們組成

的特徵向量符合多值高斯分布。

這樣,可以給出概率密度函式:

最大似然估計如下:

注意這裡的引數有兩個μ,表示在不同的結果模型下,特徵均值不同,但我們假設

協方差相同。反映在圖上就是不同模型中心位置不同,但形狀相同。這樣就可以用

直線來進行分隔判別。

求導後,得到引數估計公式:

φ是訓練樣本中結果y=1 占有的比例。

μ0是y=0 的樣本中特徵均值。

μ1是y=1 的樣本中特徵均值。

σ是樣本特徵方差均值。

如前面所述,在圖上表示為

直線兩邊的y 值不同,但協方差矩陣相同,因此形狀相同。μ不同,因此位置不同。

3) 高斯判別分析(gda)與logistic 回歸的關係

將gda 用條件概率方式來表述的話,如下:

進一步推導出

這裡的θ是的函式。

這個形式就是logistic 回歸的形式。

也就是說如果p(x|y)符合多元高斯分布,那麼p(y|x)符合logistic 回歸模型。反之,

不成立。為什麼反過來不成立呢?因為gda 有著更強的假設條件和約束。

如果認定訓練資料滿足多元高斯分布,那麼gda 能夠在訓練集上是最好的模型。然

而,我們往往事先不知道訓練資料滿足什麼樣的分布,不能做很強的假設。logistic

回歸的條件假設要弱於gda,因此更多的時候採用logistic 回歸的方法。

ML 高斯判別分析

華電北風吹 天津大學認知計算與應用重點實驗室 日期 2015 12 11 高斯判別分析屬於生成模型,模型最終學習乙個特徵 類別的聯合概率。0 多維正態分佈 確定乙個多維正態分佈只需要知道分布的均值向量 rn 1 和乙個協方差矩陣 rn n 其概率密度函式如下 p x 1 2 n 2 1 2exp 1...

高斯判別分析模型

對於常見的分類演算法,經常用到的都是判別學習演算法,如 logistic二元分類器,還有softmax分類器等。它們都有乙個共同的特點,那就是我們直接去求 p y x 有時候也表示為 h x 這類方法的重點是去擬合引數 還有一種演算法 生成學習演算法。它的中心思想是直接去求p y x 很難,然後轉而...

ML 高斯判別分析

華電北風吹 天津大學認知計算與應用重點實驗室 日期 2015 12 11 高斯判別分析屬於生成模型,模型終於學習乙個特徵 類別的聯合概率。0 多維正態分佈 確定乙個多維正態分佈僅僅須要知道分布的均值向量 rn 1 和乙個協方差矩陣 rn n 其概率密度函式例如以下 p x 1 2 n 2 1 2ex...