在介紹因子分析時,我們把資料 x∈rn 建模在 k 維子空間上,k
本文介紹主成分分析方法,即 pca,嘗試找出資料依賴的子空間。但 pca 會做得更直接,只需要用到向量計算,不需要使用 em。
設有 m 種不同汽車的屬性資料 ,如最大速度、轉彎半徑等,其中 x(i)∈rn(n舉乙個自然點的例子,有無線電控制***的駕駛員資料,其中 x1(i)
表示駕駛員 i 的技能程度,x2(i)
表示他有多喜歡飛行。因為無線電控制的直公升飛機很難飛行,所以只有最願意投入的學生,真正喜歡飛行,才能成為好的駕駛員。所以,兩個屬性 x1 和 x2 是強相關的。實際上,我們看到斜線軸方向捕捉到了人們的飛行本質,在該斜線軸上只有一點雜訊。怎麼才能自動計算 u1 方向呢?
我們將簡單介紹 pca 演算法,在執行 pca 演算法之前,先對資料進行預處理,歸一化均值和方差。
現在,怎麼來計算變化的主軸 u,也就是資料近似呈現的方向。根據觀察,在跟 u 相關的方向上,資料對映到該方向上後的方差最大。直覺上,方差越大,資訊量也越大。
考慮如下資料集,已經執行了歸一化。
現在假設 u 是下圖所示方向,圓圈表示原始資料到該線上的對映點。
可以看到對映資料有較大的方差,點趨向於遠離原點。相反,如果取下列方向:
對映點的方差就明顯要小得多,更靠近原點。
我們希望能自動找到上面兩幅圖的第一幅的 u。給定單元向量 u 和點 x,x 在 u 上的對映的長度為 xtu。所以,為最大化對映的方差,我們要選擇單元向量 u,以最大化
該式有乙個約束條件,|u|2=1,σ 正好是資料的經驗協方差矩陣。這個最大化問題的解 u 就是 σ=(1/m)σxxt 的特徵向量。這是如何得到的呢?
使用拉格朗日方程來求解該最大化問題,則:
對 u 求導,得
令導數為 0,可知 u 就是 σ 的特徵向量。
如果我們要將資料對映到 k 維子空間(k1,u2,...,uk。
y(i) 給出了乙個 k 維的 x(i) 的近似。pca 也因為被稱為降維演算法。向量 u1,...,uk 被稱為資料的 k 個主成分。
pca 有許多應用。首先是壓縮,用低維的 y(i) 表示 x(i),如果能將高維資料壓縮到 2 或 3 維,我們就可以畫出 y(i) 以視覺化資料。例如如果能把汽車資料壓縮到 2 維,就可以看出哪些汽車是類似的,聚集在一塊的;還有預處理,在執行監督學習演算法之前先降維,除了計算上的好處,還能降低假設的複雜度,防止過擬合;pca 還可用於降低雜訊,例如從飛行技能和飛行享受的資料雜訊中提取出本質。
機器學習筆記 主成分分析
在介紹因子分析時,我們把資料 x rn 建模在 k 維子空間上,k 本文介紹主成分分析方法,即 pca,嘗試找出資料依賴的子空間。但 pca 會做得更直接,只需要用到向量計算,不需要使用 em。設有 m 種不同汽車的屬性資料 如最大速度 轉彎半徑等,其中 x i rn n舉乙個自然點的例子,有無線電...
機器學習 主成分分析
那麼更好的理解這個過程呢?我們來看一張圖 假設對於給定5個點,資料如下 要求 將這個二維的資料簡化成一維?並且損失少量的資訊 這個過程如何計算的呢?找到乙個合適的直線,通過乙個矩陣運算得出主成分分析的結果 不需要理解 pca.fit transform x x numpy array格式的資料 n ...
主成分分析(學習筆記)
主成分分析 principal component analysis pca 由卡爾皮爾遜於1901年提出,是一種分析,簡化資料的技術,主要用於降低資料的維數,並且在這個過程中,保持資料集中的對方差貢獻最大的特徵。具體操作 首先對資料集的協方差矩陣進行特徵分解,得到資料集的主成分 特徵向量 和相對應...