首先搞清楚什麼叫判別分析?discriminant analysis就是根據研究物件的各種特徵值判別其型別歸屬問題的一種多變數統計分析方法。
根據判別標準不同,可以分為距離判別、fisher判別、bayes判別法等。比如在knn中用的就是距離判別,當然這裡的「距離」又有好幾種:歐氏距離、街區距離、甚至可以用皮爾森相關係數等。樸素貝葉斯分類用的就是bayes判別法。本文要講的線性判別分析就是用是fisher判別式。
根據判別函式的形式,可以分為線性判別和非線性判別。
兩者都是為了在對原始資料降維之後進行分類。pca是無監督的方式,它沒有分類標籤,降維之後需要採用k-means或自組織對映網路等無監督的演算法進行分類。lda是有監督的方式,它先對訓練資料進行降維,然後找出乙個線性判別函式。
給定n個特徵為d維的樣例
形象的圖求如下
我們就是要找到這個最佳的w,使得樣例對映到y後最易於區分。
定義每類樣例的均值點:
樣例投影到y後有均值點為:
我們希望投影後兩類樣例中心盡量地分離,即
同時我們希望投影之後類內部的方差
由於得到我們的目標函式:
又是個最優化問題。最終解得
這就是fisher在2023年提出的線性判別分析。
如果實際上使用線性回歸得到的直線方向就是二值分類中lda求得的直線方向。
假設有c個類別,降以一維已經不能滿足分類要求了,我們需要k個基向量來做投影,w=[w1|w2|...|wk] 。樣本點在這k維投影後的結果為[y1,y2,...,yk],且有
同樣是求乙個類似於(1)式的最優化問題,我們得到
即wi是矩陣
由於那降維之後又如何根據y值來判別分類呢?可以按投影後的聚類均值最近的類作為判別類。這麼說對於有c個類別的分類問題,我們最多只能分出c-1個類別來?
因為lda是二類分類器,需要推廣到多類的問題。常用的方法one-vs-all方法訓練k個分類器(這個方法在綜合時不知道怎麼處理?),以及任意兩個分類配對訓練分離器最後得到k(k-1)/2個的二類分類器。
lda至多可生成c-1維子空間
lda不適合對非高斯分布的樣本進行降維
lda在樣本分類資訊依賴方差而不是均值時,效果不好。
lda可能過度擬合資料。
LDA 線性判別分析
1.lda是什麼 線性判別式分析 linear discriminant analysis 簡稱為lda。也稱為fisher線性判別 fisher linear discriminant,fld 是模式識別的經典演算法,在1996年由belhumeur引入模式識別和人工智慧領域。基本思想是將高維的模...
LDA 線性判別分析
定義 1.lda 線性判別式分析 linear discriminant analysis 也稱為fisher線性判別 fisher linear discriminant,fld 基本思想 將高維的模式樣本投影到最佳鑑別向量空間,以達到抽取分類資訊和壓縮特徵空間維數的效果,投影後保證模式樣本在新的...
LDA 線性判別分析
1.lda是什麼 線性判別式分析 linear discriminant analysis 簡稱為lda。也稱為fisher線性判別 fisher linear discriminant,fld 是模式識別的經典演算法,在1996年由belhumeur引入模式識別和人工智慧領域。基本思想是將高維的模...