利用分類模型學習特徵權重

2021-07-27 13:02:23 字數 1071 閱讀 7436

在有的時候,我們需要學習出特徵在分類器中所佔的比重,例如判斷某個人是否具有貸款資格,特徵收入應該比年齡要更重要一些,那麼具體重要多少,我們可以通過訓練資料學習出來。

第乙個辦法可以借鑑決策樹中特徵選擇的思想,以貸款為例,特徵向量={年齡,收入,有房子,婚否}。通過計算每個特徵ai

在訓練資料集下的資訊增益: gi

(d,a

i)=h

(d)−

h(d|

ai),

i=1,

2,3,

4 得到四個資訊增益值,對其做歸一化處理,可得每個特徵所佔的權重: wi

=gi(

d,ai

)∑i=

14gi

(d,a

i)第二個辦法借鑑投票機制,選擇一種分類模型,分別訓練出該特徵下的分類器,並在測試集中驗證正確率,以訓練svm分類器為例, 

1、在訓練資料集d下分別訓練出四個svm分類器,每個分類器都是關於單特徵的分類器,如分類器s1

是關於單特徵年齡的; 

2、在測試集dt

下分別測試四個分類器的分類效果,並統計正確分類個數co

unti

,i=1

,2,3

,4分別表示四個特徵下的正確分類數; 

3、對第二步求出的co

unti

做歸一化處理,即可得到特徵的權重wi

=cou

nti∑

i=14

coun

ti。基於投票機制,還可以考慮利用缺一法來求得特徵權重,過程如下: 

1、在訓練資料集d下,分別訓練缺少了第

i 個特徵的分類器,如分類器s1

的特徵為{收入,有房子,婚否}; 

2、在測試集dt

下分別測試四個分類器的分類效果,並統計錯誤分類個數co

unti

,i=1

,2,3

,4分別表示四個特徵下的錯誤分類數。 

3、對第二步求出的co

unti

做歸一化處理,即可得到特徵的權重wi

=cou

nti∑

i=14

counti。

利用分類模型學習特徵權重

在有的時候,我們需要學習出特徵在分類器中所佔的比重,例如判斷某個人是否具有貸款資格,特徵收入應該比年齡要更重要一些,那麼具體重要多少,我們可以通過訓練資料學習出來。第乙個辦法可以借鑑決策樹中特徵選擇的思想,以貸款為例,特徵向量 年齡,收入,有房子,婚否 通過計算每個特徵ai 在訓練資料集下的資訊增益...

利用K means聚類分類,進行特徵學習

依據如下,第二篇是一篇相關的 learning feature representations with k means,adam coates and andrew y.ng.in neural networks tricks of the trade,reloaded,springer lncs...

利用GBDT模型構造新特徵

實際問題中,可直接用於機器學習模型的特徵往往並不多。能否從 混亂 的原始log中挖掘到有用的特徵,將會決定機器學習模型效果的好壞。引用下面一句流行的話 特徵決定了所有演算法效果的上限,而不同的演算法只是離這個上限的距離不同而已。本文中我將介紹facebook最近發表的利用gbdt模型構造新特徵的方法...