特徵選擇可以分為3種:
目錄:filter:過濾法
embedded:嵌入法
(一)filter:過濾法
按照發散性或者相關性對各個特徵進行評分,設定閾值或者待選擇閾值的個數,選擇特徵。
1、移除低方差的特徵
2、單變數特徵選擇
①對於分類問題(y離散),可採用:
②對於回歸問題(y連續),可採用:
根據目標函式(通常是**效果評分),每次選擇若干特徵,或者排除若干特徵。
遞迴消除特徵法使用乙個基模型來進行多輪訓練,每輪訓練後,移除若干權值係數的特徵,再基於新的特徵集進行下一輪訓練。
對特徵含有權重的**模型(例如,線性模型對應引數coefficients),rfe通過遞迴減少考察的特徵集規模來選擇特徵。首先,**模型在原始特徵上訓練,每個特徵指定乙個權重。之後,那些擁有最小絕對值權重的特徵被踢出特徵集。如此往復遞迴,直至剩餘的特徵數量達到所需的特徵數量。
rfecv 通過交叉驗證的方式執行rfe,以此來選擇最佳數量的特徵:對於乙個數量為d的feature的集合,他的所有的子集的個數是2的d次方減1(包含空集)。指定乙個外部的學習演算法,比如svm之類的。通過該演算法計算所有子集的validation error。選擇error最小的那個子集作為所挑選的特徵。
(三)embedded:嵌入法
先使用某些機器學習的演算法和模型進行訓練,得到各個特徵的權值係數,根據係數從大到小選擇特徵。類似於filter方法,但是是通過訓練來確定特徵的優劣。
特徵選擇相關總結
我們將屬性稱為 特徵 feature 對當前學習任務有用的屬性稱為 相關特徵 relevant feature 沒什麼用的屬性稱為 無關特徵 irrelevant feature 從給定的特徵集合中選擇出相關特徵子集的過程,稱為 特徵選擇 feature select 為什麼要進行特徵選擇?第一,為...
特徵選擇方法總結
1 方差篩選法 移除低方差的特徵。低方差說明特徵比較均勻,區分度低。如,一列數值全為1,則這列數值的方差為0。這一列特徵對於訓練模型是沒有意義的。使用方差篩選法的 from sklearn.feature selection import variancethreshold 6個樣本,3維的特徵向量...
特徵選擇方法總結
摘要 1.特徵選擇的功能 3.過濾特徵選擇 filter feature select 4.嵌入特徵選擇 embeding feature select 內容 1.特徵選擇的功能 減少特徵數量 降維,使模型泛化能力更強,減少過擬合 增強對特徵和特徵值之間的理解 特徵選擇的目標是尋找最優特徵子集。特徵...