機器學習筆記 Fisher判別式

2022-09-15 11:33:12 字數 1374 閱讀 7715

今天我們機器學習老師在說到周志華老師的《機器學習》這本書的時候,p60頁講到了lda,但是其中的公式推導省略了很多,現在我來補充一下。

一:lda的思想

給定兩個資料集乙個是xx乙個是oo,然後我們把xxoo投影到一條直線上,但是啊,這個人是很壞的,人家xxoo本來想分配到一起,但是你非要讓人家兩類離得越遠越好,相同的呢離得越近越好,美其名:異性只是繁衍,同性才是真愛。哎,你說這不是泯滅人性麼,好吧,我們先不扯蛋了。說正題:

1.1首先我們定義mi,它表示這個i類樣本d維空間的均值。也就是這個分別代表類xx和oo。mi表示如下。

那麼我們既然知道了這個,我們是不是也要找乙個投影到這條直線上的代表點啊,所以就有了:

那麼現在我們就可以知道兩個分類之間的距離了:

從上述式子我們可以看出,改變直線的斜率,也就是方向,可以改變兩者之間的大小。

剛剛我們說了我們的準則就是讓類內之間的距離最小,這是不是有點像我們之前的指示函式,那麼如下圖公式:

我們前面已經說過,這是乙個二分類問題,現在已經給了一般形式的離散度(我們叫他離散度,其實就是真實值與**值(這裡用平方表示**值)的平方),那我們是不是要把這個兩個離散度相加,然後讓這個達到最小?

總得離散度為:

為了讓類內的距離越小,類間的距離越大,我給出下面的判別式。你們看,能不能滿足。

,現在只要讓j(w)達到極大,是不是就可以讓我們前面說的兩個要求滿足?

那就讓我們來求出j(w)的極大值。

1.2求其中一類的離散度(就是那一類的點到這個類中平均點的距離之和)

公式:二分類問題就是總得離散度為:

1.2類間的離散度用矩陣表示為:

那麼:所以總得類內離散度:

有因為:

所以:這就是廣義瑞利商(generalized rayleigh quotient)。它有如下性質:

1:,a是乙個實數。

2:大小與w大小無關,只與w的方向有關。

判別式模型

本文主要通過logistics regression講解判別式模型 由上文生成式模型的講解,我們大致了解了生成式模型,首先通過假設某些條件求出了聯合概率密度分布,再通過貝葉斯公式求出相應的分類概率。判別式模型則是完全通過資料進行分析,沒有任何人為的假設。首先我們看一下上文中最後推出的後驗概率 beg...

機器學習 之 生成式模型 VS 判別式模型

摘要 判別式模型,就是只有乙個模型,你把測試用例往裡面一丟,label就出來了,如svm。生成式模型,有多個模型 一般有多少類就有多少個 你得把測試用例分別丟到各個模型裡面,最後比較其結果,選擇最優的作為label,如樸素貝葉斯。本文將從生成式模型與判別式模型的概念,適用環境以及具體模型三個方面分析...

機器學習之判別式模型和生成式模型

機器學習之判別式模型和生成式模型 判別式模型 discriminative model 是直接對條件概率p y x 建模。常見的判別式模型有線性回歸模型 線性判別分析 支援向量機svm 神經網路 boosting 條件隨機場等。舉例 要確定乙個羊是山羊還是綿羊,用判別模型的方法是從歷史資料中學習到模...