pca和lda都是經典的降維演算法。pca是無監督的,也就是訓練樣本不需要標籤;lda是有監督的,也就是訓練樣本需要標籤。pca是去除掉原始資料中冗餘的維度,而lda是尋找乙個維度,使得原始資料在該維度上投影後不同類別的資料盡可能分離開來。
pca是一種正交投影,它的思想是使得原始資料在投影子空間的各個維度的方差最大。假設我們要將n維的資料投影到m維的空間上(m用一句話來概括lda的思想就是,投影後類內方差最小,類間方差最大。如下圖所示有兩種投影方式,左邊的投影後紅色資料和藍色資料還有重疊部分,右邊的投影後紅色資料和藍色資料則剛好被分開。lda的投影即類似右邊的投影方式,投影後使得不同類別的資料盡可能分開,而相同類別的資料則盡可能緊湊地分布。
**於網路
lda的計算步驟:
計算類間散度矩陣\(s_b\)
\[s_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^t
\]其中\(\mu_0\)是第0類樣本的均值,\(\mu_1\)是第1類樣本的均值。
2. 計算類內雜湊矩陣\(s_w\)
\[s_w=\sum_(x-\mu_0)(x-\mu_1)^t+\sum_(x-\mu_1)(x-\mu_1)^t
\]其中\(x_0\)是第0類樣本的集合,\(x_1\)是第1類樣本的集合。
3. 求出最佳投影方向\(w\),\(w\)即為\(s_w^s_b\)的最大特徵值所對應的特徵向量。
pca和lda都是經典的降維演算法;
pca和lda都假設資料是符合高斯分布的;
pca和lda都利用了矩陣特徵分解的思想。
pca是無監督(訓練樣本無標籤)的,lda是有監督(訓練樣本有標籤)的;
pca是去掉原始資料冗餘的維度,lda是選擇乙個最佳的投影方向,使得投影後相同類別的資料分布緊湊,不同類別的資料盡量相互遠離。
lda最多可以降到k-1維(k是訓練樣本的類別數量,k-1是因為最後一維的均值可以由前面的k-1維的均值表示);
lda可能會過擬合資料。
reference:
PCA和LDA之直觀理解
pca和lda都是經典的降維演算法。pca是無監督的,也就是訓練樣本不需要標籤 lda是有監督的,也就是訓練樣本需要標籤。pca是去除掉原始資料中冗餘的維度,而lda是尋找乙個維度,使得原始資料在該維度上投影後不同類別的資料盡可能分離開來。pca是一種正交投影,它的思想是使得原始資料在投影子空間的各...
機器學習 LDA與PCA演算法
linear discriminant analysis 用途 資料預處理中的降維,分類任務 歷史 ronald a.fisher在1936年提出了線性判別方法 線性判別分析 lda 目標 lda關心的是能夠最大化類間區分度的座標軸成分 將特徵空間 資料集中的多維樣本 投影到乙個維度更小的 k 維子...
PCA和線性判別分析LDA原理總結
在主成分分析 pca 原理總結中,我們對降維演算法pca做了總結。這裡我們就對另外一種經典的降維方法線性判別分析 linear discriminant analysis,以下簡稱lda 做乙個總結。lda在模式識別領域 比如人臉識別,艦艇識別等圖形影象識別領域 中有非常廣泛的應用,因此我們有必要了...