【資訊的表示與降維】
通常情況下,資料被表示成一組記錄的組合,在機器學習領域通常用一維列向量表示一組特徵。而當資料需要的特徵過多時,在面對成百上千的維度情況下,演算法的開銷顯著增大,因為資料的降維顯得非常有必要,降維意味著部分資料的丟失,不過由於資料本身之間具備一定的相關性,因為採用合理的方法使得損失降低
例如:乙個商品資訊記錄中,「瀏覽量」和「訪客數」具備較大的相關性,而「加入購物車數目」和「購買量」同樣具備很強的相關性,因此刪除其中一條資訊不會造成過多的資訊缺少
由此可見,資料的降維需要回答以下幾個問題?
刪除哪一列能夠使得損失的資訊盡可能少?
或者不是簡單的刪除,而是將原始資訊組合壓縮,使得資訊損失盡可能小?
如何度量資訊的損失大小?
原始資料具體如何降維操作?
【基變換】
通常計算機中資料被描述為一組向量
向量的內積即為對應座標乘積之和,其物理意義是乙個向量在另乙個向量上投影與另乙個向量長度的乘積
所謂基,即一組線性無關的單位向量,通常是正交的,如二維空間中的(0 1)和(1 0)
基變換,以(3 2)為例子,將(3 2)轉換成新的基上的座標,就是用(3 2)分別與兩個基做內積計算
繼續推廣到多個記錄 將多個列向量組合起來
那麼一組標準座標系下的向量經過左乘矩陣轉換為新基下的座標
因此矩陣相乘的物理意義是:
將右邊矩陣的每乙個列向量變換到左邊矩陣以每一行行向量為基的空間中去
【降維優化目標】
由上面可以看到當左邊變換矩陣的行數也就是基的數目小於右邊列向量(代表一條記錄)的大小時,資料將被降維,需要解決的問題變化為如何尋找到這樣的基使得盡可能的儲存資訊
給定5條記錄,每一條記錄(列向量)包含兩維
首先將各個字段減去所在維度的均值,這樣每一維度的均值變為0
在二維平面座標系中為以下樣子
若所求要求將資料降低為一維,那麼如何選取新的基
假如選取x 那麼所以點將簡單投影到x軸,會發現原本不同的兩個點投影到乙個位置,那麼這種降維方式顯然是不可取的
如何盡可能不丟失原先資訊,或者說各個點盡可能的分隔開,那麼即使得投影後的投影值盡可能分散
方差:描述資料的分散程度,那麼即投影後的資料方差盡可能的大
優化目標:
將一組n維向量降低為k維,其目標是選擇k個單位正交基,使得原始的資料投影到這組基上後,
1 各個欄位兩兩的協方差為0
2 欄位的方差盡可能大
【pca演算法】
設有m條n維資料
1 將原始資料按照列組成m列n行矩陣x
2 將x的每一行(乙個特徵)求得均值,並減去均值
3 求出協方差矩陣
4 求出協方差矩陣的特徵值和對應特徵向量
5 按照特徵值從大到小選取前k條特徵向量一行行(每一行是乙個新基)組成變換矩陣p
6 y=px即為降維後的資料
例子:
將其降低到一維
求得協方差矩陣
計算特徵值 2 和 2.5
所對應得特徵向量並進行標準化
降維過程:
在二維座標繫得投影結果:
【pca分析特點】
pca本質是將方差最大得方向作為主要特徵,並且在各個正交方向上將資料離相關,使得在不同方向上沒有相關性
不足之處,對於非線性得高次相關性適用性差,需要kernel核函式轉換。並且由於無需其他引數,所以pca分析更顯通用性,不具備特殊得調參和優化
pca主成分分析 PCA主成分分析(中)
矩陣 matrix,很容易讓人們想到那部著名的科幻電影 駭客帝國 事實上,我們又何嘗不是真的生活在matrix中。機器學習處理的大多數資料,都是以 矩陣 形式儲存的。矩陣是向量的組合,而乙個向量代表一組資料,資料又是多維度的。比如每個人的都具有身高 體重 長相 性情等多個維度的資訊資料,而這些多維度...
統計機器學習 主成分分析(PCA)
主成分分析方法,是一種使用最廣泛的資料降維演算法,pca的主要思想是將高維的特徵對映到k維上。這k維就是主成分,並能保留原始變數的大部分資訊,這裡的資訊是指原始變數的方差。如果用座標系進行直觀解釋,乙個座標系表示乙個變數,對原座標系中的資料進行主成分分析等價於進行座標系旋轉變換,將資料投影到新座標系...
主成分分析PCA
主要參考這篇文章 個人總結 pca是一種對取樣資料提取主要成分,從而達到降維的目的。相比於上篇文章介紹到的svd降維不同,svd降維是指減少資料的儲存空間,資料的實際資訊沒有缺少。個人感覺pca更類似與svd的去噪的過程。pca求解過程中,涉及到了svd的使用。針對資料集d 假設di 的維度為 w ...