特徵選擇與特徵組合

2021-08-21 08:58:49 字數 1822 閱讀 1283

特徵選擇

特徵選擇是特徵工程中的重要問題(另乙個重要的問題是特徵提取),坊間常說:資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。由此可見,特徵工程尤其是特徵選擇在機器學習中占有相當重要的地位。通常而言,特徵選擇是指選擇獲得相應模型和演算法最好效能的特徵集,工程上常用的方法有以下:

1. 計算每乙個特徵與響應變數的相關性:工程上常用的手段有計算皮爾遜係數和互資訊係數,皮爾遜係數只能衡量線性相關性而互資訊係數能夠很好地度量各種相關性,但是計算相對複雜一些,好在很多toolkit裡邊都包含了這個工具(如sklearn的mine),得到相關性之後就可以排序選擇特徵了;

2. 構建單個特徵的模型,通過模型的準確性為特徵排序,藉此來選擇特徵,另外,記得jmlr』03上有一篇**介紹了一種基於決策樹的特徵選擇方法,本質上是等價的。當選擇到了目標特徵之後,再用來訓練最終的模型;

3. 通過l1正則項來選擇特徵:l1正則方法具有稀疏解的特性,因此天然具備特徵選擇的特性,但是要注意,l1沒有選到的特徵不代表不重要,原因是兩個具有高相關性的特徵可能只保留了乙個,如果要確定哪個特徵重要應再通過l2正則方法交叉檢驗

4. 訓練能夠對特徵打分的預選模型:randomforest和logistic regression等都能對模型的特徵打分,通過打分獲得相關性後再訓練最終模型;

5. 通過特徵組合後再來選擇特徵:如對使用者id和使用者特徵最組合來獲得較大的特徵集再來選擇特徵,這種做法在推薦系統和廣告系統中比較常見,這也是所謂億級甚至十億級特徵的主要**,原因是使用者資料比較稀疏,組合特徵能夠同時兼顧全域性模型和個性化模型,這個問題有機會可以展開講。

6.通過深度學習來進行特徵選擇:目前這種手段正在隨著深度學習的流行而成為一種手段,尤其是在計算機視覺領域,原因是深度學習具有自動學習特徵的能力,這也是深度學習又叫unsupervised feature learning的原因。從深度學習模型中選擇某一神經層的特徵後就可以用來進行最終目標模型的訓練了。

常見的特徵處理方法:離散化和特徵組合。

離散化離散化就是把數值型特徵離散化到幾個固定的區間段。比如說成績0-100,離散化成a、b、c、d四檔,然後用4個01特徵來one-hot編碼,比如

a為1,0,0,0

b為0,1,0,0

c為0,0,1,0

d為0,0,0,1

那第一位就表示是否為a,第二位表示是否為b……

這裡起到的作用就是減少過擬合,畢竟95和96分的兩個學生能力不見得就一定有差別,但是a的學生跟d的比起來還是有明顯差別的。其實就是把線性函式轉換成分段階躍函式了。

另外一種,比如把汽車時速按10公里/小時之類的分一些檔,就像這樣:

0-10

10-20

20-30

……如果現在我們想學習的目標是油耗

這裡以某款國內比較熱銷的車型做了下面的幾項測試:

120km/h勻速行駛時,油耗為7.81公升/100km

90km/h勻速行駛時, 油耗為5.86公升/100km

60km/h勻速行駛時, 油耗為4.12公升/100km

30km/h勻速行駛時 ,油耗為4.10公升/100km

顯然油耗不是線性的,不離散化肯定不行。仔細想想,這樣離散化之後,其實可以近似擬合任意函式了。

特徵組合也叫特徵交叉

合成特徵 (synthetic feature)和特徵組合(feature crosses)不太一樣,特徵交叉是特徵組合的乙個子集。

一種特徵,不在輸入特徵之列,而是從乙個或多個輸入特徵衍生而來。通過標準化或縮放單獨建立的特徵不屬於合成特徵。合成特徵包括以下型別:

將乙個特徵與其本身或其他特徵相乘(稱為特徵組合)。

兩個特徵相除。

對連續特徵進行分桶,以分為多個區間分箱。

特徵選擇與特徵提取

一 特徵選擇和特徵提取 特徵選擇 feature selection 和特徵提取 feature extraction 都屬於降維 dimension reduction 這兩者達到的效果是一樣的,就是試圖去減少特徵資料集中的屬性 或者稱為特徵 的數目 但是兩者所採用的方式方法卻不同。特徵提取的方法...

特徵工程 特徵交叉 交叉特徵 特徵組合

關於特徵交叉的作用以及原理,我這裡不進行詳細描述,因為大佬們已經說得很清楚了,這裡就附上幾個連線 特徵組合 特徵交叉 feature crosses 結合sklearn進行特徵工程 對於特徵離散化,特徵交叉,連續特徵離散化非常經典的解釋 下面說怎樣製作和交叉特徵 多項式生成函式 sklearn.pr...

(八)特徵選擇與特徵提取

在描述物件的時候 模式識別中把每個物件都量化為一組特徵來描述,構建特徵空間是解決模式識別問題的第一步,其中通過直接測量得到的特徵稱為原始特徵。如 人體的各種生理指標 以描述健康狀況 數字影象中的每點的灰度值 以描述影象內容 原始特徵的形成一般包含三大類 物理 結構和數學特徵 物理和結構特徵 易於為人...