資料壓縮
視覺化
pca(principal component analysis),即主成分分析方法,是一種使用最廣泛的資料降維演算法。pca的主要思想是將n維特徵對映到k維上,這k維是全新的正交特徵也被稱為主成分,是在原有n維特徵的基礎上重新構造出來的k維特徵。pca的工作就是從原始的空間中順序地找一組相互正交的座標軸,新的座標軸的選擇與資料本身是密切相關的。其中,第乙個新座標軸選擇是原始資料中方差最大的方向,第二個新座標軸選取是與第乙個座標軸正交的平面中使得方差最大的,第三個軸是與第1,2個軸正交的平面中方差最大的。依次類推,可以得到n個這樣的座標軸。通過這種方式獲得的新的座標軸,我們發現,大部分方差都包含在前面k個座標軸中,後面的座標軸所含的方差幾乎為0。於是,我們可以忽略餘下的座標軸,只保留前面k個含有絕大部分方差的座標軸。事實上,這相當於只保留包含絕大部分方差的維度特徵,而忽略包含方差幾乎為0的特徵維度,實現對資料特徵的降維處理。定義 x 到 z 的對映。
pca 的作用:
視覺化錯誤使用:避免過擬合(可能有效果,但不是乙個好的解決辦法)
在使用 pca 之前,先使用原始的資料嘗試,如果沒有達到效果再考慮使用 pca。
機器學習 降維
資料降維的主要方法 投影和流形學習 投影 高維空間的所有訓練例項實際上 或近似於 受乙個低得多的低維子空間所影響 投影並不是降維的最佳方法。許多情況下,許多情況下,子空間可能會彎曲或轉動,比如 著名的瑞士卷玩具資料集 簡單地進行平面投影會直接將瑞士卷的不同層壓扁在一起。d維流形就是n維空間的一部分,...
機器學習 降維
1 什麼是降維?數學知識 特徵值分解 設a是n階方陣,如果有常數 和n維非零列向量 的關係式 a 成立,則稱 為方陣a的特徵值,非零向量 稱為方陣a的對應於特徵值入的特徵向量 降維 將資料的特徵數量從高維轉換到低維 實際中很多資料是高維的,但資料 內在的維度 可能更低 例如 通訊資料原始有7維 入網...
機器學習降維方法
特徵降維方法包括 lasso,pca,小波分析,lda,奇異值分解svd,拉普拉斯特徵對映,sparseautoencoder,區域性線性嵌入lle,等距對映isomap,embedding。lasso least absolute shrinkage and selection operator,...