高斯判別分析模型

2021-09-07 07:56:01 字數 1851 閱讀 4044

對於常見的分類演算法,經常用到的都是判別學習演算法,如 logistic二元分類器,還有softmax分類器等。它們都有乙個共同的特點,那就是我們直接去求 p(y|x; θ), 有時候也表示為 hθ(x),這類方法的重點是去擬合引數θ。

還有一種演算法:生成學習演算法。它的中心思想是直接去求p(y|x; θ)很難,然後轉而去求 p(x|y) 與p(y ), 然後利用貝葉斯公式得到:p(y|x) = p(x|y) * p(y )/ p(x)。

它是核心假設為:p(x|y)服從高斯分布。這個假設的含義就是指在給定某一類別下,所屬類別的所有樣本的分布為高斯分布。這個假設在大多數情況下是成立的。

下面以兩分類(伯努利分布)來說明乙個高斯判別分析:

當我們求p(y|x)時, 我們利用葉斯公式:

對於分類問題,我們不用關心p(x),因為我們求的是所屬類 y 的概率大小啊,所以我們只關心分子就可以啦,即:

如果我們非得想求出p(x)也可以,利用全概率公式就可以求出來了,即 p(x) = p(x|y = 1)p(y = 1) + p(x|y = 0)p(y = 0)。

下面呢,讓我們看一下各自的分布情況哈:

由於 y服從伯努利分布,而p(x|y)服從的為高斯分布,所以呢,可以寫作:

注意:雖然類別分別為0與1,但是我們用了相同的協方差矩陣。當然也可以用不相同的協方差矩陣。

然後呢,對於乙個訓練樣本集合來說,我們可以寫出它的擬然函式來,如下所示為log形式的擬然函式:

為使似然函式得到最大值,對引數求使層數為 0,我們得到對應的引數的值:

到現在為止,我們就得到了高斯判別分析模型了,它可以用於分類的哦,分類時,我們的核心假設為對於每類中的樣本分佈呈現高斯分布。

我們來看乙個直觀的的例子,下圖為二維的情況下的圖哈,變數x 為二維的。

在兩分類上,我們也可以用logistic模型進行分類(它屬於判別學習演算法),我們看看高斯判別模型與logistic回歸模型的關係哈,先看個圖:

說明了什麼呢?

其實 上圖中的losgtic回歸網線就是p(y=1|x) = p(x |y=1)p(y=1) / p(x)的曲線。 兩個高斯分布交界的地方就是logistic曲線等於0.5的地方, 因為在這一點 p(y = 0) 與 p(y =1)的概率相同。

當p(x |y )服從高斯分布時,我們可以推出logistic回歸,但是呢反推是不成立的。 所以呢, 當p(x |y)真的服從高斯分布時,我們用高斯判別分析比logistic模型更好。

總之呢,高斯判別作出了更強的假設,需要少的資料,並且大大部分的情況下結果很好的,而logistic回歸模型通常更加泛化。

參考:ufldl 教程;

高斯判別分析

1 多值正態分佈 多變數正態分佈描述的是n 維隨機變數的分布情況,這裡的 變成了向量,也變成了矩陣 寫作n 假設有n 個隨機變數x1 x2,xn。的第i 個分量是e x 而 ii var xi ij cov xi,xj 概率密度函式如下 其中 是 的行列式,是協方差矩陣,而且是對稱半正定的。當 是二...

ML 高斯判別分析

華電北風吹 天津大學認知計算與應用重點實驗室 日期 2015 12 11 高斯判別分析屬於生成模型,模型最終學習乙個特徵 類別的聯合概率。0 多維正態分佈 確定乙個多維正態分佈只需要知道分布的均值向量 rn 1 和乙個協方差矩陣 rn n 其概率密度函式如下 p x 1 2 n 2 1 2exp 1...

ML 高斯判別分析

華電北風吹 天津大學認知計算與應用重點實驗室 日期 2015 12 11 高斯判別分析屬於生成模型,模型終於學習乙個特徵 類別的聯合概率。0 多維正態分佈 確定乙個多維正態分佈僅僅須要知道分布的均值向量 rn 1 和乙個協方差矩陣 rn n 其概率密度函式例如以下 p x 1 2 n 2 1 2ex...