過濾式
過濾式方法指的是先對特徵集進行篩選,然後再進行學習器的訓練,特徵選擇過程對後續的學習器無關。相當於先用特徵選擇的過程對初始的特徵進行過濾,再用過濾後的特徵進行模型的訓練。
典型代表有:relief演算法。該演算法的思想如下:為每個特徵設定乙個統計量,所有特徵的統計量構成乙個向量。統計量代表的是特徵的重要程度,最終只要選擇對應分量的值大於閾值τ
\tau
τ或者前k個特徵就行了。統計量構建的方法如下:在x
ix_i
xi的同類樣本中選擇最近鄰xi,
nhx_xi
,nh
,稱為「猜中近鄰」。在異類樣本中選擇乙個最近鄰xi,
nmx_xi
,nm
,稱為猜錯近鄰,相關的統計量定義如下:δj=
∑i−diff(x
ij,x
i,nh
j)2+
diff(x
ij,x
i,nm
j)2\delta^j=\sum_-\text(x_i^j,x_^j)^2+\text(x_i^j,x_^j)^2
δj=i∑
−diff(x
ij,
xi,n
hj)
2+diff(x
ij,
xi,n
mj)
2從上式可以看出,對於某個特徵對應的分量,該特徵使得同類的越近,異類的越遠,所對應的統計量就越大。
包裹式
包裹式的特徵選擇考慮到具體的學習器,是根據學習器上的誤差來評價特徵子集的優劣,在子集的搜尋方式上是用了拉維加斯的隨機策略。典型的演算法是:lvw演算法。
每次隨機選擇出乙個特徵子集之後都要重新訓練乙個學習器,計算的花銷很大,若特徵數很多,可能需要執行很長的時間才能夠得到乙個解。
嵌入式
嵌入式的方法與之前的兩個方法不同,嵌入式將特徵選擇的過程與學習器的訓練過程融為一體,在學習器的訓練過程中,自動的進行了特徵的選擇。該方法的模型如下:minw
∑im(
yi−w
txi)
2\min_w\sum_i^m(y_i-w^tx_i)^2
wmini
∑m(
yi−
wtxi
)2學習到權重w之後,就可以根據w的大小,選擇出權重較大的特徵。為了防止過擬合,通常加入正則項,得到的模型如下:minw
∑im(
yi−w
txi)
2+λ∥
w∥22
\min_w\sum_i^m(y_i-w^tx_i)^2+\lambda\left \| w\right \|_2^2
wmini
∑m(
yi−
wtxi
)2+
λ∥w∥
22夢想的發芽需要努力的汗水去灌溉ஐ٩(๑´ᵕ`)۶ஐ
三種方法實現選擇問題
一 選擇問題 選擇問題 selection problem 是求一陣列 n個數 中第k k n 個最小元素的問題。二 三種方法實現 1.確定演算法 lomuto劃分 hoare劃分 2.非確定演算法 概率演算法 sherwood演算法 三 lomuto劃分1 include include usin...
過濾特徵 三種特徵選擇總結
特徵選擇可以分為3種 目錄 filter 過濾法 embedded 嵌入法 一 filter 過濾法 按照發散性或者相關性對各個特徵進行評分,設定閾值或者待選擇閾值的個數,選擇特徵。1 移除低方差的特徵 2 單變數特徵選擇 對於分類問題 y離散 可採用 對於回歸問題 y連續 可採用 根據目標函式 通...
特徵選擇的3種方法
過濾器方法,這種方法首先選定特徵,再來進行學習。根據每乙個屬性的一些指標 如方差等 來確定這個屬性的重要程度,然後對所有屬性按照重要程度排序,從高到低的選擇屬性。選定了屬性以後,再來進行訓練。比如fisher score laplacian score等。這種方法其實不大好,因為決定特徵選擇效果的不...