機器學習 特徵選擇

2022-07-05 18:48:14 字數 912 閱讀 8074

降維本質上是從乙個維度空間對映到另乙個維度空間,特徵的多少別沒有減少,當然在對映的過程中特徵值也會相應的變化。舉個例子,現在的特徵是1000維,我們想要把它降到500維。降維的過程就是找個乙個從1000維對映到500維的對映關係。原始資料中的1000個特徵,每乙個都對應著降維後的500維空間中的乙個值。假設原始特徵中有個特徵的值是9,那麼降維後對應的值可能是3。而對於特徵選擇來說,有很多方法:

其中過濾式的特徵選擇後,資料本身不變,而資料的維度減少。而嵌入式的特徵選擇方法也會改變資料的值,維度也改變。embedded方式是一種自動學習的特徵選擇方法,後面講到具體的方法的時候就能理解了。

特徵選擇主要有兩個功能:

(1)減少特徵數量,降維,使模型泛化能力更強,減少過擬合

(2)增強特徵和特徵值之間的理解

去掉取值變化小的特徵(刪除低方差特徵)

variancethreshold 是特徵選擇中的一項基本方法。它會移除所有方差不滿足閾值的特徵。預設設定下,它將移除所有方差為0的特徵,即那些在所有樣本中數值完全相同的特徵。

假設我們要移除那些超過80%的資料都為1或0的特徵

from sklearn.feature_selection import variancethreshold

x = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]

sel = variancethreshold(threshold=(.8 * (1 - .8)))

sel.fit_transform(x)

array([[0, 1],

[1, 0],

[0, 0],

[1, 1],

[1, 0],

[1, 1]])

機器學習 特徵選擇

特徵選擇是特徵工程中的重要問題 另乙個重要的問題是特徵提取 坊間常說 資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。由此可見,特徵工程尤其是特徵選擇在機器學習中占有相當重要的地位。通常而言,特徵選擇是指選擇獲得相應模型和演算法最好效能的特徵集,工程上常用的方法有以下 1.計算每...

機器學習 特徵選擇

資料預處理完成以後,特徵比較多時,就需要對特徵進行選擇。使有意義的特徵輸入模型進行訓練。特徵選擇通常來說從兩個方面入手 特徵選擇的方法 在sklearn中可以使用feature selection庫來進行特徵選擇。2.1.1 方差選擇法 方差選擇法需要計算各特徵的方差,然後根據給定的方差閾值選擇特徵...

機器學習 特徵選擇

當資料預處理完成後,我們需要選擇有意義的特徵輸入機器學習的演算法和模型進行訓練。通常來說,從兩個方面考慮來選擇特徵 根據特徵選擇的形式又可以將特徵選擇方法分為3種 embedded 嵌入法,先使用某些機器學習的演算法和模型進行訓練,得到各個特徵的權值係數,根據係數從大到小選擇特徵。類似於filter...