主成分分析: principal component analysis (pca)
pca的本質就是找一些相互正交的投影方向的方差。計算原始資料在這些正交基上投影的方差越大,則說明在對應正交基上的資訊量越多。
原始資料協方差矩陣的特徵值越大,對應的方差越大,在對應的特徵向量上投影的資訊量就越大,就是主成分。
特徵值小,說明資料在這些特徵向量上投影的資訊量很小,則這資料在總體中的影響很小,可以將小特徵值對應方向的資料刪除,從而達到了降維的目的。
所以,主成分分析主要是為了尋找總體中,佔比例比較少的成分,刪除。達到降維和資料清洗的目的
資料的降維之特徵選擇及主成分分析
資料降維 維度 即特徵的數量 資料降維的方法有 1.特徵選擇 2.主成分分析 特徵選擇 例項 from sklearn.feature selection import variancethreshold defvar 特徵選擇 刪除低方差的特徵 特徵減少 return none var varia...
機器學習中資料清洗和特徵選擇總結
1.預處理 理解資料及資料特徵 很重要 2.異常樣本資料 3.取樣 資料不均衡問題 1.詞袋法 統計詞頻 2.tf idf tf詞頻,idf逆文件頻率 表示詞在各個文件 現的概率 3.hashtf idf 不計算詞頻,而是計算單詞進行hash後的hash值對應的樣本數量。當計算量太大時用hashtf...
機器學習中的資料清洗和特徵處理綜述
典型的監督學習過程 確定特徵資料 在資料 不固定,不明了的情況下,需要考慮為了達到目標,需要哪些特徵值。首先可以借鑑一些業務經驗選擇一些特徵,然後需要對使用資料的可用性進行評估,包括資料的獲取難度,資料的規模,資料的準確率,資料的覆蓋率等。特徵處理過程 1,初步處理 樣本取樣 當模型不能使用全部的資...