L1 L2懲罰項降維的原理

2021-07-28 16:44:53 字數 1071 閱讀 9096

通常而言,特徵選擇是指選擇獲得相應模型和演算法最好效能的特徵集,工程上常用的方法有以下:

1. 計算每乙個特徵與響應變數的相關性:工程上常用的手段有計算皮爾遜係數和互資訊係數,皮爾遜係數只能衡量線性相關性而互資訊係數能夠很好地度量各種相關性,但是計算相對複雜一些,好在很多toolkit裡邊都包含了這個工具(如sklearn的mine),得到相關性之後就可以排序選擇特徵了;

2. 構建單個特徵的模型,通過模型的準確性為特徵排序,藉此來選擇特徵,另外,記得jmlr'03上有一篇**介紹了一種基於決策樹的特徵選擇方法,本質上是等價的。當選擇到了目標特徵之後,再用來訓練最終的模型;

3. 通過l1正則項來選擇特徵:l1正則方法具有稀疏解的特性,因此天然具備特徵選擇的特性,但是要注意,l1沒有選到的特徵不代表不重要,原因是兩個具有高相關性的特徵可能只保留了乙個,如果要確定哪個特徵重要應再通過l2正則方法交叉檢驗;

4. 訓練能夠對特徵打分的預選模型:randomforest和logistic regression等都能對模型的特徵打分,通過打分獲得相關性後再訓練最終模型;

5. 通過特徵組合後再來選擇特徵:如對使用者id和使用者特徵最組合來獲得較大的特徵集再來選擇特徵,這種做法在推薦系統和廣告系統中比較常見,這也是所謂億級甚至十億級特徵的主要**,原因是使用者資料比較稀疏,組合特徵能夠同時兼顧全域性模型和個性化模型,這個問題有機會可以展開講。

6. 通過深度學習來進行特徵選擇:目前這種手段正在隨著深度學習的流行而成為一種手段,尤其是在計算機視覺領域,原因是深度學習具有自動學習特徵的能力,這也是深度學習又叫unsupervised feature learning的原因。從深度學習模型中選擇某一神經層的特徵後就可以用來進行最終目標模型的訓練了。

整體上來說,特徵選擇是乙個既有學術價值又有工程價值的問題,目前在研究領域也比較熱,值得所有做機器學習的朋友重視。

應該是說,分別使用l1和l2擬合,如果兩個特徵在l2中係數相接近,在l1中乙個係數為0乙個不為0,那麼其實這兩個特徵都應該保留,原因是l1對於強相關特徵只會保留乙個

l2不能直接特徵選擇,只能約束係數大小。l1可以,因為l1 penalty是乙個高維菱形,與最小二乘結合起來的損失函式最優解往往在菱形的邊或頂點上,這時候就有係數為0。

L1 L2損失 和 L1 L2正則化

1 l1損失 最小絕對值誤差 最小化 值 真實值 的絕對值,魯棒性強。2 l2損失 最小平方誤差 最小化 值 真實值 的平方,對於大於1的數,平方更大,因此對樣本敏感。3 l1正則化 l1正則化和l2正則化可以看做是損失函式的懲罰項,l1正則化是指權值向量中各個元素的絕對值之和。l1正則化可以產生稀...

L1 L2範數 概念

向量的範數可以簡單形象的理解為向量的長度,或者向量到零點的距離,或者相應的兩個點之間的距離。向量的範數定義 向量的範數是乙個函式 x 滿足非負性 x 0,齊次性 cx c x 三角不等式 x y x y 常用的向量的範數 l0範數 x 0為x向量各個非零元素的個數 l1範數 x 1 為x向量各個元素...

L1 L2正則的效果

本文主要講l1 l2正則,首先從直觀上展示l1 l2正則,接著展示其梯度的效果。擬合過程中通常都傾向於讓權值盡可能小,即構造乙個所有引數都比較小的模型。一般認為引數值小的模型比較簡單,能在一定程度上避免過擬合現象,抗擾動能力強,因為若引數很大,只要資料偏移一點點,就會對結果造成很大的影響 而如果引數...