特徵選擇的三種方法 基本概念

2021-10-10 18:46:54 字數 1604 閱讀 1041

過濾式

過濾式方法指的是先對特徵集進行篩選,然後再進行學習器的訓練,特徵選擇過程對後續的學習器無關。相當於先用特徵選擇的過程對初始的特徵進行過濾,再用過濾後的特徵進行模型的訓練。

典型代表有:relief演算法。該演算法的思想如下:為每個特徵設定乙個統計量,所有特徵的統計量構成乙個向量。統計量代表的是特徵的重要程度,最終只要選擇對應分量的值大於閾值τ

\tau

τ或者前k個特徵就行了。統計量構建的方法如下:在x

ix_i

xi​的同類樣本中選擇最近鄰xi,

nhx_xi

,nh​

,稱為「猜中近鄰」。在異類樣本中選擇乙個最近鄰xi,

nmx_xi

,nm​

,稱為猜錯近鄰,相關的統計量定義如下:δj=

∑i−diff(x

ij,x

i,nh

j)2+

diff(x

ij,x

i,nm

j)2\delta^j=\sum_-\text(x_i^j,x_^j)^2+\text(x_i^j,x_^j)^2

δj=i∑​

−diff(x

ij​,

xi,n

hj​)

2+diff(x

ij​,

xi,n

mj​)

2從上式可以看出,對於某個特徵對應的分量,該特徵使得同類的越近,異類的越遠,所對應的統計量就越大。

包裹式

包裹式的特徵選擇考慮到具體的學習器,是根據學習器上的誤差來評價特徵子集的優劣,在子集的搜尋方式上是用了拉維加斯的隨機策略。典型的演算法是:lvw演算法

每次隨機選擇出乙個特徵子集之後都要重新訓練乙個學習器,計算的花銷很大,若特徵數很多,可能需要執行很長的時間才能夠得到乙個解。

嵌入式

嵌入式的方法與之前的兩個方法不同,嵌入式將特徵選擇的過程與學習器的訓練過程融為一體,在學習器的訓練過程中,自動的進行了特徵的選擇。該方法的模型如下:min⁡w

∑im(

yi−w

txi)

2\min_w\sum_i^m(y_i-w^tx_i)^2

wmin​i

∑m​(

yi​−

wtxi

​)2學習到權重w之後,就可以根據w的大小,選擇出權重較大的特徵。為了防止過擬合,通常加入正則項,得到的模型如下:min⁡w

∑im(

yi−w

txi)

2+λ∥

w∥22

\min_w\sum_i^m(y_i-w^tx_i)^2+\lambda\left \| w\right \|_2^2

wmin​i

∑m​(

yi​−

wtxi

​)2+

λ∥w∥

22​夢想的發芽需要努力的汗水去灌溉ஐ٩(๑´ᵕ`)۶ஐ

三種方法實現選擇問題

一 選擇問題 選擇問題 selection problem 是求一陣列 n個數 中第k k n 個最小元素的問題。二 三種方法實現 1.確定演算法 lomuto劃分 hoare劃分 2.非確定演算法 概率演算法 sherwood演算法 三 lomuto劃分1 include include usin...

過濾特徵 三種特徵選擇總結

特徵選擇可以分為3種 目錄 filter 過濾法 embedded 嵌入法 一 filter 過濾法 按照發散性或者相關性對各個特徵進行評分,設定閾值或者待選擇閾值的個數,選擇特徵。1 移除低方差的特徵 2 單變數特徵選擇 對於分類問題 y離散 可採用 對於回歸問題 y連續 可採用 根據目標函式 通...

特徵選擇的3種方法

過濾器方法,這種方法首先選定特徵,再來進行學習。根據每乙個屬性的一些指標 如方差等 來確定這個屬性的重要程度,然後對所有屬性按照重要程度排序,從高到低的選擇屬性。選定了屬性以後,再來進行訓練。比如fisher score laplacian score等。這種方法其實不大好,因為決定特徵選擇效果的不...