機器學習基礎 降維之矩陣分解svd pca lda

2021-10-07 22:53:59 字數 907 閱讀 4297

本篇主要記錄下svd(singular value decomposition)、pca(principal component analysis)、lda(linear discriminant analysis)

svd是一種無監督的降維演算法,其可以用來對任一矩陣(不要求為方陣)進行分解,如下:

詳細可參考:

pca是一種無監督的降維演算法,其基本思想是如果樣本在某一維度上的方差越大,則該維度包含的資訊就越多;反之如果某一維度上的方差非常小,則該維度基本不含資訊,去掉也不會有多大損失;其目標是希望找到個空間變換矩陣使得樣本在新空間各基底(座標軸)上的方差盡可能的大,然後直接捨棄掉方差最小的那幾個新空間基底(座標軸)就達到了降維的目的了;其主要步驟是對資料矩陣的協方差矩陣進行分解,求特徵值和特徵向量;流程如下:

其原理與推導過程見:

lda是一種有監督的降維演算法,其基本思想是希望找到個投影矩陣使得投影(降為後),各類樣本類內盡可能的聚集、類間盡可能的分散;其流程如下:

其原理與推導過程見:

注意點:lda降維最多降到類別數k-1的維數

機器學習之降維

降維的意義 克服維數災難,獲取本質特徵,節省儲存空間,去除無用雜訊,實現資料視覺化 資料壓縮 視覺化資料 主成分分析 pca pca演算法 python 調庫實現 import matplotlib.pyplot as plt 畫圖 from sklearn.datasets import load...

學習筆記 聚類降維矩陣分解

lightgbm,pca,clustering,k means 聚類,降維 lightgbm lightgbm light gradient boosting machine 是微軟開發基於決策樹演算法的分布式梯度提公升框架 支援高效率並行運算,低記憶體消耗,高準確率分布式支援 lightgbm優化...

機器學習基礎 之 降維與度量學習

其原理是,對於給定的待測試樣本,基於某種距離找出訓練集中與其最靠近的k個訓練樣本,然後基於這k個鄰居的屬性來進行計算,使用k個鄰居的 均值 作為待測試樣本的最終分類值。當前分類方法受距離計算原理影響,可能不同的距離會得到不同的分類結果 也收到k的取值影響,可能也會由於k的範圍不同得到不同的分類區間。...