在有的時候,我們需要學習出特徵在分類器中所佔的比重,例如判斷某個人是否具有貸款資格,特徵收入應該比年齡要更重要一些,那麼具體重要多少,我們可以通過訓練資料學習出來。
第乙個辦法可以借鑑決策樹中特徵選擇的思想,以貸款為例,特徵向量={年齡,收入,有房子,婚否}。通過計算每個特徵ai
在訓練資料集下的資訊增益: gi
(d,a
i)=h
(d)−
h(d|
ai),
i=1,
2,3,
4 得到四個資訊增益值,對其做歸一化處理,可得每個特徵所佔的權重: wi
=gi(
d,ai
)∑i=
14gi
(d,a
i)第二個辦法借鑑投票機制,選擇一種分類模型,分別訓練出該特徵下的分類器,並在測試集中驗證正確率,以訓練svm分類器為例,
1、在訓練資料集d下分別訓練出四個svm分類器,每個分類器都是關於單特徵的分類器,如分類器s1
是關於單特徵年齡的;
2、在測試集dt
下分別測試四個分類器的分類效果,並統計正確分類個數co
unti
,i=1
,2,3
,4分別表示四個特徵下的正確分類數;
3、對第二步求出的co
unti
做歸一化處理,即可得到特徵的權重wi
=cou
nti∑
i=14
coun
ti。基於投票機制,還可以考慮利用缺一法來求得特徵權重,過程如下:
1、在訓練資料集d下,分別訓練缺少了第
i 個特徵的分類器,如分類器s1
的特徵為{收入,有房子,婚否};
2、在測試集dt
下分別測試四個分類器的分類效果,並統計錯誤分類個數co
unti
,i=1
,2,3
,4分別表示四個特徵下的錯誤分類數。
3、對第二步求出的co
unti
做歸一化處理,即可得到特徵的權重wi
=cou
nti∑
i=14
counti。
利用分類模型學習特徵權重
在有的時候,我們需要學習出特徵在分類器中所佔的比重,例如判斷某個人是否具有貸款資格,特徵收入應該比年齡要更重要一些,那麼具體重要多少,我們可以通過訓練資料學習出來。第乙個辦法可以借鑑決策樹中特徵選擇的思想,以貸款為例,特徵向量 年齡,收入,有房子,婚否 通過計算每個特徵ai 在訓練資料集下的資訊增益...
利用K means聚類分類,進行特徵學習
依據如下,第二篇是一篇相關的 learning feature representations with k means,adam coates and andrew y.ng.in neural networks tricks of the trade,reloaded,springer lncs...
利用GBDT模型構造新特徵
實際問題中,可直接用於機器學習模型的特徵往往並不多。能否從 混亂 的原始log中挖掘到有用的特徵,將會決定機器學習模型效果的好壞。引用下面一句流行的話 特徵決定了所有演算法效果的上限,而不同的演算法只是離這個上限的距離不同而已。本文中我將介紹facebook最近發表的利用gbdt模型構造新特徵的方法...