基於線性判別分析的維數約簡

2022-03-11 16:18:16 字數 2471 閱讀 2207

最近大四還有個必修:課程設計。選到的題目是 'fisher辨別分析用於人臉資料維數約簡的實現'。

然後在scikit learn中找到了相關的python庫: dimensionality reduction using linear discriminant analysis

判別分析中的線性判別分析可以用來進行有監督的維數約簡,他將輸入資料投影到線性子空間。其中的投影方向能達到最好的分類效果。約減後的維數小於資料的類別數,所以這是乙個很好的降維,而且只在多類問題下有效。

該方法 在模組中的discriminant_analysis.lineardiscriminantanalysis.transform。

期望的維數可以通過

n_components

引數來設定。該引數不會影響

discriminant_analysis.lineardiscriminantanalysis.fit

或者discriminant_analysis.lineardiscriminantanalysis.predict.

例子:

在iris資料集上進行lda,pca降為2維得比較

lda和qda的數學描述

線性判別分析和二次判別分析都可以由簡單的概率模型得來,此概率模型對各個類的類條件概率p(x|y=k)。根據貝葉斯公式,後驗概率為:

通過最大化後驗概率即可得到類別。

具體來看,對於lda和qda,類條件概率密度可以建模為多維高斯分布,他的概率密度為:

為了使用該概率模型進行分類,我們只需要從訓練資料中估計某一類k的類先驗概率p(y=k),類均值μk(樣本類均值),相關係數矩陣(要麼是通過樣本的相關矩陣,要麼是正則化估計:參見shrinkage部分)

對於二次判別分析,對於協方差沒有要求。詳細見

lda的數學描述

為了理解lda在維數約簡中的運用,對lda分類準則的幾何描述十分有用(上面的那一part)。設類別總數為k。在lda中我們假設過所有類的協方差矩陣都相同。重新調整資料而且該協方差作為特徵(還有疑問):

我們還可以進一步約減維數,對於給定的l,通過對映到能最大化類間距離的子空間hl(實際上我們在進行pca對於對映後的類均值)。l就是對應n_components引數在discriminant_analysis.lineardiscriminantanalysis.transform方法中。具體見此

shrinkage

收縮是乙個改善協方差矩陣估計的工具,當訓練樣本數相對於資料維數(特徵)比較小時。在這種情況下,經驗樣本協方差是乙個不好的估計。shrinkage lda可以把

shrinkage

引數設定為"

auto

"。這樣就可以自動決定最優的收縮引數(按照

ledoit and wolf

提出的定理)。注意收縮只在將

solver

引數設為

'lsqr' or 'eigen'

時起作用。

收縮引數也可以手動設定為0-1之間的數。這樣在兩個極端情況之間就是收縮版的協方差矩陣。下圖給出了實際的差別:是否有收縮操作

估計演算法

預設的解決方法是'svd'。它既能用來分類也能變換,而且他不依靠協方差矩陣的計算。這在維數很高時是乙個優勢,但他不支援shrinkage。

'lsqr'只能用於分類,支援shrinkage

'eigen'是基於類間/類內比值(廣義瑞雷商)的最大化,即能分類也能轉換,可以支援shrinkage。但是他需要計算協方差矩陣,所以它適用於高位特徵的情況。

examples:

normal and shrinkage linear discriminant analysis for classification

: comparison of lda classifiers with and without shrinkage.

references:

[3](1, 2) "the elements of statistical learning", hastie t., tibshirani r., friedman j., section 4.3, p.106-119, 2008.

[4]ledoit o, wolf m. honey, i shrunk the sample covariance matrix. the journal of portfolio management 30(4), 110-119, 2004.

線性判別分析 線性判別分析總覽

線性判別分析總覽 linea r discriminant analysis,lda 用於資料預處理中的降維 分類任務,其目標是找到能夠最大化類間區分度的座標軸成分。用幾個詞概括lda的特徵,即降維 分類。假設一批患者使用同一種腫瘤藥,一些人效果良好 response 而另一些人無明顯療效 not ...

線性判別分析

linear discriminant analysis 線性判別分析 discriminant analysis.lineardiscriminantanalysis 和 quadratic discriminant analysis 二次判別分析 discriminant analysis.qu...

線性判別分析

需要注意一下,lda有兩種縮寫 一種是線性判別分析 linear discriminant analysis 一種是概率主題模型 隱含狄利克雷分布 latent dirichlet allocation 本文講的是前者。線性判別分析 linear discriminant analysis,lda ...