主成分分析是統計方法裡的一種降維方法,它的主要思想是將原有n個特徵通過正交變換將一組可能存在相關性的特徵縮減到k特徵(k<=n) 。
高維:定義好抽象呀,能解釋一下麼?
路思:我們先從二維情況理解一下定義,假設原始資料中有下單量和成交量呈現出正相關的關係,我用圖2.2.3.1解釋一下這個過程,這裡假設該圖假設這是乙個二維資料,即只有兩個變數,分別由橫縱座標代表,這些資料的分布是個橢圓形的點陣,那麼我們能得到橢圓的乙個長軸和短軸,在短軸方向上可以看到資料的變化幅度不大,那麼將變化不明顯的短軸退化成沒有幅度變化時,這樣資料只有在長軸上有變化,這樣二維資料就降維到一維了,我們把長軸u1稱為主成分方向,在二維空間中取和u1方向具有最大方差的正交的的方向就是u2方向,u2則是我們選擇出的第二個主成分,以此類推。
圖2.2.3.1
高維:恩,也就是說比如商品評價滿意度可以分為快遞滿意度,商品滿意度兩個屬性決定,我使用pca後,可能得到的是這樣乙個屬性就可以決定商品評價滿意度了吧
路思:是的,從pca定義看多屬性時,pca主成分對最終結果的影響是按照從大到小被計算出來的,也就是第乙個計算出來的是第一主成分,是最關鍵的第一因素,第二主成分要稍微弱一些,以此類推。
機器學習從入門到創業手記 機器學習環境配置
我,路思和高維從單位領了新的筆記本,也坐到了公司給我們提供的寬敞明亮的工位上,我覺得當時拒絕父母讓我回去工作也許是對的。第一天的工作並不複雜,李里給每個人列印了一張 機器學習開發環境配置表 的檔案,讓我們按照紙面的步驟把機器配置好。機器學習開發環境配置表 python 3.x安裝 訪問 圖3.1.1...
機器學習從入門到創業手記 基礎開發技術
從戰情室出來時,我除了收穫機器學習演算法的基礎知識外也和路思與高維熟悉了很多,路思這人來自與小縣城,但當年高考也是全縣第四的成績考入了的大學,他時常有些忿忿不平的表示當年要是全國統一分數線,他一定會上個211,985之類的重點,我也十分了解他的鬱悶,他從初中時就學校就採用封閉式教育,半個月才能回家一...
機器學習 主成分分析
那麼更好的理解這個過程呢?我們來看一張圖 假設對於給定5個點,資料如下 要求 將這個二維的資料簡化成一維?並且損失少量的資訊 這個過程如何計算的呢?找到乙個合適的直線,通過乙個矩陣運算得出主成分分析的結果 不需要理解 pca.fit transform x x numpy array格式的資料 n ...