今天我們機器學習老師在說到周志華老師的《機器學習》這本書的時候,p60頁講到了lda,但是其中的公式推導省略了很多,現在我來補充一下。
一:lda的思想
給定兩個資料集乙個是xx乙個是oo,然後我們把xxoo投影到一條直線上,但是啊,這個人是很壞的,人家xxoo本來想分配到一起,但是你非要讓人家兩類離得越遠越好,相同的呢離得越近越好,美其名:異性只是繁衍,同性才是真愛。哎,你說這不是泯滅人性麼,好吧,我們先不扯蛋了。說正題:
1.1首先我們定義mi,它表示這個i類樣本d維空間的均值。也就是這個分別代表類xx和oo。mi表示如下。
那麼我們既然知道了這個,我們是不是也要找乙個投影到這條直線上的代表點啊,所以就有了:
那麼現在我們就可以知道兩個分類之間的距離了:
從上述式子我們可以看出,改變直線的斜率,也就是方向,可以改變兩者之間的大小。
剛剛我們說了我們的準則就是讓類內之間的距離最小,這是不是有點像我們之前的指示函式,那麼如下圖公式:
我們前面已經說過,這是乙個二分類問題,現在已經給了一般形式的離散度(我們叫他離散度,其實就是真實值與**值(這裡用平方表示**值)的平方),那我們是不是要把這個兩個離散度相加,然後讓這個達到最小?
總得離散度為:
為了讓類內的距離越小,類間的距離越大,我給出下面的判別式。你們看,能不能滿足。
,現在只要讓j(w)達到極大,是不是就可以讓我們前面說的兩個要求滿足?
那就讓我們來求出j(w)的極大值。
1.2求其中一類的離散度(就是那一類的點到這個類中平均點的距離之和)
公式:二分類問題就是總得離散度為:
1.2類間的離散度用矩陣表示為:
那麼:所以總得類內離散度:
有因為:
所以:這就是廣義瑞利商(generalized rayleigh quotient)。它有如下性質:
1:,a是乙個實數。
2:大小與w大小無關,只與w的方向有關。
判別式模型
本文主要通過logistics regression講解判別式模型 由上文生成式模型的講解,我們大致了解了生成式模型,首先通過假設某些條件求出了聯合概率密度分布,再通過貝葉斯公式求出相應的分類概率。判別式模型則是完全通過資料進行分析,沒有任何人為的假設。首先我們看一下上文中最後推出的後驗概率 beg...
機器學習 之 生成式模型 VS 判別式模型
摘要 判別式模型,就是只有乙個模型,你把測試用例往裡面一丟,label就出來了,如svm。生成式模型,有多個模型 一般有多少類就有多少個 你得把測試用例分別丟到各個模型裡面,最後比較其結果,選擇最優的作為label,如樸素貝葉斯。本文將從生成式模型與判別式模型的概念,適用環境以及具體模型三個方面分析...
機器學習之判別式模型和生成式模型
機器學習之判別式模型和生成式模型 判別式模型 discriminative model 是直接對條件概率p y x 建模。常見的判別式模型有線性回歸模型 線性判別分析 支援向量機svm 神經網路 boosting 條件隨機場等。舉例 要確定乙個羊是山羊還是綿羊,用判別模型的方法是從歷史資料中學習到模...