如何進行特徵選擇

2022-05-16 21:24:02 字數 1883 閱讀 4037

前言

理論部分:

乙個典型的機器學習任務是通過樣本的特徵來**樣本所對應的值。特徵過多會導致模型過於複雜,從而導致過擬合;而特徵過少則會導致模型過於簡單,從而導致欠擬合。事實上,如果特徵數大於樣本數,那麼過擬合就不可避免。

特徵數比較少的時候,我們需要增加特徵。增加特徵方法很多:依照經驗;利用已有演算法提取特徵(比如多項式回歸)。在現實中,我們更加注重的是減少特徵。需要被減少的特徵主要有兩種:無關特徵,多餘特徵。無關特徵指的是和**沒有關係的特徵;多餘特徵指的是和其他特徵有很強相關性的特徵。減少特徵的意義主要有三點:1.降低過擬合;2.使得模型具有更好的解釋性;3.可以加快模型訓練的時間,獲得更好的效能。

過濾法:

過濾法只用於檢驗特徵向量和目標向量的相關度,不需要任何的機器學習演算法,不依賴於任何模型。過濾法只需要根據統計量進行篩選:我們根據統計量的大小,設定合適的閾值,將低於閾值的特徵剔除。

包裹法:

包裹法採用的是特徵搜尋的辦法。他的基本思路是,從初始特徵集合中不斷的選擇子集合,根據學習器的效能來對子集進行評價,直到選擇最佳的子集合。

常見的包裹法有:窮舉法(適合特徵比較少的情況,特徵多的時候易發生組合**);隨機法。隨機法有很多種實現方式比如lv演算法,貪心演算法。不過我們一般使用貪心演算法,因為lv演算法在特徵比較多的時候,開銷依舊很大。貪心演算法也有幾種不同的實現方式:

1.前向搜尋。在開始時,按照特徵數來劃分子集,每個子集只有乙個特徵,對每個子集進行評價。然後在最優的子集上逐步增加特徵,使模型效能提公升最大,直到增加特徵並不能使模型效能提公升為止。

2.後向搜尋。在開始時,將特徵集合分別減去乙個特徵作為子集,每個子集有n—1個特徵,對每個子集進行評價。然後在最優的子集上逐步減少特徵,使得模型效能提公升最大,直到減少特徵並不能使模型效能提公升為止。

3.雙向搜尋。就是前向搜尋和後向搜尋的結合。

4.遞迴剔除。反覆的訓練模型,並剔除每次的最優或者最差的特徵,將剔除完畢的特徵集進入下一輪訓練,直到所有的特徵被剔除,被剔除的順序度量了特徵的重要程度。

嵌入法:

過濾法不需要學習器,包裹法使用固定的學習器,而嵌入法沒有顯式的特徵選擇過程,他的特徵選擇是在訓練學習器的過程中完成的。

l1正則化和決策樹演算法是典型的嵌入式特徵選擇演算法。l1正則化將某些特徵的權重係數降為0,那就說明這些特徵不重要,不需要被模型所訓練【又看到了一種l1正則化的新解釋】。決策樹也是典型的嵌入法。因為決策樹是利用乙個特徵進行分類,我們在生成決策樹的過程就是挑選特徵的過程,並且根據特徵的不同取值構建子節點,直到特徵沒有分類能力或者很小,就停止生成節點。

spearman係數:

本文所說的相關係數又叫做pearson相關係數,實際上,pearson相關係數能被看作夾角余弦值的重要前提是資料的中心化,而中心化的思想**於高斯分布。所以pearson相關係數更多的是測量服從正態分佈的隨機變數的相關性,如果這個假設並不存在,那麼可以使用spearman相關係數。

• 過濾法應用於回歸問題,還可以採用互資訊法(mutual information ),應用分類問題則可以使用卡方檢驗(chi-squared test )。

• 我們將多個決策樹整合起來,會獲得隨機森林(random forests ),與決策樹一樣,它可以在決定類別時,評估特徵的重要性,從而實現特徵選擇的作用.xgboost也會起到類似的作用。

• 深度學習具有自動學習特徵的能力,而特徵選擇是機器學習非常重要的一環,這也是深度學習能取得重大成功的原因之一。

**部分

非數值型特徵如何進行編碼?

1 如下圖,age education marriage risk 是非數值型特徵,不可以直接訓練模型,需要進行編碼,把特徵轉換成數值型,然後進行訓練。2 有很多種編碼方式,比如one hot編碼 獨熱編碼 也可以對映有序特徵,對於分型別特徵,可以對類別進行編碼。下圖用的就是對 age educat...

Spark實戰 如何進行選擇去重

業務上有乙份行車軌跡的資料 carrecord.csv 如下 id carnum orgid captime 1 粵a321 0002 20200512 102010 2 雲a321 0001 20200512 102010 3 粵a321 0001 20200512 103010 4 雲a321 ...

Spark實戰 如何進行選擇去重

業務上有乙份行車軌跡的資料 carrecord.csv 如下 id carnum orgid captime 1 粵a321 0002 20200512 102010 2 雲a321 0001 20200512 102010 3 粵a321 0001 20200512 103010 4 雲a321 ...