LDA 線性判別分析 Fisher線性判別

2021-07-11 17:28:59 字數 1227 閱讀 7687

1. lda是什麼

線性判別式分析(linear discriminant analysis),簡稱為lda。也稱為fisher線性判別(fisher linear discriminant,fld),是模式識別的經典演算法,在2023年由belhumeur引入模式識別和人工智慧領域。

基本思想是將高維的模式樣本投影到最佳鑑別向量空間,以達到抽取分類資訊和壓縮特徵空間維數的效果,投影後保證模式樣本在新的子空間有最大的類間距離最小的類內距離,即模式在該空間中有最佳的可分離性。

lda與前面介紹過的pca都是常用的降維技術。pca主要是從特徵的協方差角度,去找到比較好的投影方式lda更多的是考慮了標註即希望投影後不同類別之間資料點的距離更大,同一類別的資料點更緊湊

下面給出乙個例子,說明lda的目標。

可以看到兩個類別,乙個綠色類別,乙個紅色類別。左圖是兩個類別的原始資料,現在要求將資料從二維降維到一維。直接投影到x1軸或者x2軸,不同類別之間會有重複,導致分類效果下降。右圖對映到的直線就是用lda方法計算得到的,可以看到,紅色類別和綠色類別在對映之後之間的距離是最大的,而且每個類別內部點的離散程度是最小的(或者說聚集程度是最大的)。

這裡還有乙個lda的例子:

下圖是乙個lda和pca區別的例子:

類別i投影後的均值(實際上等於mi的投影):

投影後的方差(這裡的y是類別i中資料投影後的資料,即y=w_t * x):

下面通過展開m'和s',定義s_b和s_w:

推導過程忽略了,最後推導結果如下:

對於s_b,以前是「兩個類別的均值之差的絕對值」,現在多個類別了,怎麼計算呢?計算任意兩個類別之間的均值之差的絕對值之和?這樣對於n個類別,需要 c(n,2)次計算,這可能是乙個方法,不過lda使用的方法,計算每個類別的均值與所有類別均值的差異,並且對每個類別的資料量進行加權處理。下式中,m為所有類別的均值,m_i為類別i的均值,n_i為類別i的資料量。

4. lda其他變種

如果原始資料投影後,仍舊不能很好的分開,那麼kernel lda是乙個解決方法。

lda在計算量上與資料的維度有關,2dlda能夠大大減小lda計算量。

5. lda的一些問題

第一,lda最多投影出c-1維特徵,如果需要更多特徵,則要引入其他方法。

第二,lda假設資料服從單峰高斯分布,比如下面的複雜資料結構。

fisher線性判別 判別分析 Fisher判別

上期 判別分析概述 中我們提到,判別分析 discriminant analysis 是根據判別物件若干個指標的觀測結果判定其應屬於哪一類的資料統計方法,其中fisher判別一般用於指標為定量資料的兩類判別,bayes判別多用於指標為定量資料的多類判別,同時,兩者均可利用spss完成,但在運用和解讀...

Fisher線性判別分析

三 結果 四 在uci資料集上的iris和sonar資料上驗證演算法的有效性 iris資料3類,4維,150個資料 sonar資料2類,60維,208個樣本.訓練和測試樣本有三種方式進行劃分 三選一 1.將資料隨機分訓練和測試,多次平均求結果 2.k折交叉驗證 3.留1法 針對不同維數,畫出曲線圖 ...

LDA 線性判別分析

1.lda是什麼 線性判別式分析 linear discriminant analysis 簡稱為lda。也稱為fisher線性判別 fisher linear discriminant,fld 是模式識別的經典演算法,在1996年由belhumeur引入模式識別和人工智慧領域。基本思想是將高維的模...