《特徵工程三部曲》之三 維度壓縮

2021-09-17 20:11:07 字數 495 閱讀 8765

1  pca: 更夠保持對方差貢獻最大的特徵。

1  最近重構性: 樣本到這個超平面的距離都足夠近

2  最大可分性: 樣本點到這個超平面的投影都能盡可能的分開

2 svd(奇異值分解)

矩陣分解方法:

左奇異向量用於壓縮行,右奇異向量壓縮列,壓縮方法均是取奇異值較大的左奇異向量和右奇異向量與原資料c相乘。

pca 是從特徵方向去降維,svd是從特徵和例項兩個方向降維。

3  lda 演算法 :線性判別式,考慮label,降維後的資料點經可能容易地被區分。

基於線性模型進行特徵屬性合併的操作,有監督的降維,在sklearn 中的本質是svd分解的左奇異矩陣乘以原來的矩陣,達到降維例項的目的。

總結: pca 對映是將一種高維資料合併到低維的過程,樣本更具有更大的發散性,lda考慮了樣本的標註,使得不同類別之間的距離最大,可以用於降維和分類。

一般情況下,有類別資訊的,可以採用lda

沒有類別資訊的,可以用pca。

《特徵工程三部曲》之三 維度壓縮

當特徵選擇完成之後,就可以直接訓練模型了,但是可能由於特徵矩陣過大導致計算量大,訓練時間長的問題 因此,降低特徵矩陣維度,也是必不可少的,主成分分析就是最常用的降維方法,在減少資料集的維度的同時,保持對方差貢獻最大的特徵,在sklearn中,我們使用pca類進行主成分分析。我們人類能看到的資料是三維...

特徵工程三部曲 (1)特徵選擇

特徵質量的好壞,直接影響到最終的模型結果。構建特徵是乙個很大的工程,總體來講包括 特徵選擇 特徵表達 和 本篇文章,我們討論一下特徵選擇。特徵選擇指的是,在全部的特徵中,挑選出對最終的機器學習任務有用的特徵。整體來講,從特徵選擇的過程中有沒有模型的參與,可以將特徵選擇的方法分為 基於統計量的選擇和基...

簽到功能之三部曲

簽到功能之三部曲 簽到功能是絕大多數遊戲都具備的功能,今天討論的是簽到系統的三種表現型別以及組合方式,歡迎指正 一 從簽到功能的作用看其本質 簽到功能的作用 上線即可獲得一定獎勵 可看出本質是 來玩就白送 可看出目的是 通過資源投放增加玩家上線率與留存率 二 由其本質衍生至它的表現型別 雖然是贈送,...