pca和lda都是經典的降維演算法。pca是無監督的,也就是訓練樣本不需要標籤;lda是有監督的,也就是訓練樣本需要標籤。pca是去除掉原始資料中冗餘的維度,而lda是尋找乙個維度,使得原始資料在該維度上投影後不同類別的資料盡可能分離開來。
pca是一種正交投影,它的思想是使得原始資料在投影子空間的各個維度的方差最大。假設我們要將n維的資料投影到m維的空間上(m
用一句話來概括lda的思想就是,投影後類內方差最小,類間方差最大。如下圖所示有兩種投影方式,左邊的投影後紅色資料和藍色資料還有重疊部分,右邊的投影後紅色資料和藍色資料則剛好被分開。lda的投影即類似右邊的投影方式,投影後使得不同類別的資料盡可能分開,而相同類別的資料則盡可能緊湊地分布。
**於網路
lda的計算步驟:
計算類間散度矩陣sbsb
sb=(μ0−μ1)(μ0−μ1)tsb=(μ0−μ1)(μ0−μ1)t
其中μ0μ0是第0類樣本的均值,μ1μ1是第1類樣本的均值。
計算類內雜湊矩陣swsw
sw=∑x∈x0(x−μ0)(x−μ1)t+∑x∈x1(x−μ1)(x−μ1)tsw=∑x∈x0(x−μ0)(x−μ1)t+∑x∈x1(x−μ1)(x−μ1)t
其中x0x0是第0類樣本的集合,x1x1是第1類樣本的集合。
求出最佳投影方向ww,ww即為s−1wsbsw−1sb的最大特徵值所對應的特徵向量。
pca和lda都是經典的降維演算法;
pca和lda都假設資料是符合高斯分布的;
pca和lda都利用了矩陣特徵分解的思想。
pca是無監督(訓練樣本無標籤)的,lda是有監督(訓練樣本有標籤)的;
pca是去掉原始資料冗餘的維度,lda是選擇乙個最佳的投影方向,使得投影後相同類別的資料分布緊湊,不同類別的資料盡量相互遠離。
lda最多可以降到k-1維(k是訓練樣本的類別數量,k-1是因為最後一維的均值可以由前面的k-1維的均值表示);
lda可能會過擬合資料。
PCA推導與直觀理解
資料降維 為了說明什麼是資料的主成分,先從資料降維說起。資料降維是怎麼回事兒?假設三維空間中有一系列點,這些點分布在乙個過原點的斜面上,如果你用自然座標系x,y,z這三個軸來表示這組資料的話,需要使用三個維度,而事實上,這些點的分布僅僅是在乙個二維的平面上,那麼,問題出在 如果你再仔細想想,能不能把...
PCA和LDA的對比
pca和lda都是經典的降維演算法。pca是無監督的,也就是訓練樣本不需要標籤 lda是有監督的,也就是訓練樣本需要標籤。pca是去除掉原始資料中冗餘的維度,而lda是尋找乙個維度,使得原始資料在該維度上投影後不同類別的資料盡可能分離開來。pca是一種正交投影,它的思想是使得原始資料在投影子空間的各...
SVM 直觀和通俗理解。
最近研究svm 結合了多篇文章,總結如下。svm 本質是乙個支援向量的最大間隔分類器。之前的線型分類器,一般是定義所有的點到分類直線距離總和最大。而svm本質是支援向量距離和最大,這樣就排除異常點的影響,計算量也比較小。svm它本質上即是乙個分類方法,用w t b定義分類函式,於是求w b,為尋最大...