在主成分分析(pca)原理總結中,我們對降維演算法pca做了總結。這裡我們就對另外一種經典的降維方法線性判別分析(linear discriminant analysis, 以下簡稱lda)做乙個總結。lda在模式識別領域(比如人臉識別,艦艇識別等圖形影象識別領域)中有非常廣泛的應用,因此我們有必要了解下它的演算法原理。
在學習lda之前,有必要將其自然語言處理領域的lda區別開來,在自然語言處理領域, lda是隱含狄利克雷分布(latent dirichlet allocation,簡稱lda),他是一種處理文件的主題模型。我們本文只討論線性判別分析,因此後面所有的lda均指線性判別分析。
1. lda的思想
lda是一種監督學習的降維技術,也就是說它的資料集的每個樣本是有類別輸出的。這點和pca不同。pca是不考慮樣本類別輸出的無監督降維技術。lda的思想可以用一句話概括,就是「投影後類內方差最小,類間方差最大」。什麼意思呢? 我們要將資料在低維度上進行投影,投影後希望每一種類別資料的投影點盡可能的接近,而不同類別的資料的類別中心之間的距離盡可能的大。
可能還是有點抽象,我們先看看最簡單的情況。假設我們有兩類資料 分別為紅色和藍色,如下圖所示,這些資料特徵是二維的,我們希望將這些資料投影到一維的一條直線,讓每一種類別資料的投影點盡可能的接近,而紅色和藍色資料中心之間的距離盡可能的大。
上圖中國提供了兩種投影方式,哪一種能更好的滿足我們的標準呢?從直觀上可以看出,右圖要比左圖的投影效果好,因為右圖的黑色資料和藍色資料各個較為集中,且類別之間的距離明顯。左圖則在邊界處資料混雜。以上就是lda的主要思想了,當然在實際應用中,我們的資料是多個類別的,我們的原始資料一般也是超過二維的,投影後的也一般不是直線,而是乙個低維的超平面。
在我們將上面直觀的內容轉化為可以度量的問題之前,我們先了解些必要的數學基礎知識,這些在後面講解具體lda原理時會用到。
6. lda vs pca
lda用於降維,和pca有很多相同,也有很多不同的地方,因此值得好好的比較一下兩者的降維異同點。
首先我們看看相同點:
1)兩者均可以對資料進行降維。
2)兩者在降維時均使用了矩陣特徵分解的思想。
3)兩者都假設資料符合高斯分布。
我們接著看看不同點:
1)lda是有監督的降維方法,而pca是無監督的降維方法
2)lda降維最多降到類別數k-1的維數,而pca沒有這個限制。
3)lda除了可以用於降維,還可以用於分類。
4)lda選擇分類效能最好的投影方向,而pca選擇樣本點投影具有最大方差的方向。
這點可以從下圖形象的看出,在某些資料分布下lda比pca降維較優。
**:
修改XP系統屬性中的製造商和技術支援商資訊
1.首先,在資源管理器中開啟windows資料夾下的system32資料夾,如果是windows nt或windows2000使用者,則是winnt資料夾下的system資料夾 網上寫的是windows資料夾下的system,但是我改的時候是在 system32下找到的,所以改了一下。新建乙個檔名是...
電商中的spu和sku的區別
spu standard product unit 標準化產品單元 用簡單的話來說就是一類商品,比如手機裡的一種牌子,如小公尺,iphone,都是一類。然後加入具體的型別,如小公尺10 iphone x。那麼它就是乙個spu。sku stock keeping unit 庫存保有單位 sku簡單來說...
話裡話外 企業選擇供應商的原則 DNA結構
最穩定的幾何形狀是三角形,不是四邊形,也不是五邊形。那麼是不是最穩定的就是最安全的呢?一旦三角形的一條邊受損了,三角形就不復存在了。有沒有比三角形更穩定 更安全 更可靠的關係網呢?dna結構是分叉交錯形的 可替代 可複製的雙螺旋的供需鏈結構。它最大的好處是,一旦任何一段有了破損,其他的可以替補上,還...