一般而言,監督學習的目標函式是:
第一項機器學習中損失函式後面經常會跟乙個l1或者l2正則函式,也稱l1/l2範數。
0、l0範數:
指權值向量
1、l1範數:
指權值向量
注:由於l0範數很難優化求解(np難問題)和l1範數是l0範數的最優凸近似,從而一般只考慮l1而不考慮l2範數。
2、l2範數:
指權值向量
l0範數和l1範數傾向於
l2範數傾向於
1、l0/l1範數
(1)特徵選擇
大家對稀疏規則化趨之若鶩的乙個關鍵原因在於它能實現特徵的自動選擇。稀疏規則化運算元的引入就是為了完成特徵自動選擇的光榮使命,它會學習地去掉這些沒有資訊的特徵,也就是把這些特徵對應的權重置為0。
(2)可解釋性
另乙個青睞於稀疏的理由是,模型更容易解釋。例如要確定患某種病的概率,然後我們收集到的資料是1000維的,也就是我們需要尋找這1000種因素到底是怎麼影響患上這種病的概率的。通過學習,如果最後學習到的w*就只有很少的非零元素,例如只有5個非零的元素,那麼我們就有理由相信,這些對應的特徵在患病分析上面提供的資訊是巨大的,決策性的。
2、l2範數
除了l1範數,還有一種更受寵幸的規則化範數是l2範數。
它有兩個美稱,在回歸裡面,有人把有它的回歸叫「嶺回歸」(ridge regression),有人也叫它「權值衰減weight decay」。這用的很多吧,因為它的強大功效是改善機器學習裡面乙個非常重要的問題:過擬合。
1、l1範數
假設有帶l1正則化的損失函式:
圖中彩色線是這些尖角接觸的機率圓圓大於與
2、l2範數
假設帶l2正則化的損失函式:
以二維空間為例,l2正則化的函式圖形是個圓,因此
data analysis 陣列拆分
陣列的拆分 hsplit拿刀切菜,刀刃豎著往下切。每一次下刀,刀是在橫向移動後切下去。split arr,切成幾分,axis 1 vsplit拿刀片魚片,刀刃橫著往右邊切。每一次下刀,刀是在縱向移動後切下去。split arr,片成幾層,axis 0 import numpy as np arr n...
data analysis 陣列排序
陣列排序 1.sort sort是inplace true的,lexsort是inplace false的,所以想要看lexsort的排序效果,需要用lexsort函式返回的下標索引去獲取元素觀察。2.lexsort。對於多個陣列,lexsort是把最後乙個陣列排序,再以這個排序方式去排前面的陣列。...
data analysis 矩陣運算
矩陣運算 1.矩陣與數相乘。與矩陣每個元素相乘 2.矩陣加減。對應位置元素相加減。shape屬性必須一致 3.矩陣相乘。m行n列 乘 n行l列 等於 m行l列。推薦使用matmul,dot 4.矩陣對應元素相乘。用multiply 5.m.h共軛轉置 m.i逆矩陣 m.t轉置矩陣 m.a impor...