對應**
w ∗=
argm
inw∑
il(y
i,f(
xi;w
))+λ
ψ(w)
w^* = argmin_w \sum_il(y_i, f(x_i;w)) + \lambda\psi(w)
w∗=arg
minw
i∑
l(yi
,f(
xi;
w))+
λψ(w
)監督學習過程:最小化誤差同時規劃引數。例如公式中的l項作用是擬合資料,
λ ψ(
w)\lambda\psi(w)
λψ(w)
項作用是防止過擬合,簡化模型使模型具有更好的泛化能力
當模型複雜化,產生過擬合時,可增大
λ
\lambda
λ或者選擇其他形式的
ψ (w
)\psi(w)
ψ(w),使
λ ψ(
w)\lambda\psi(w)
λψ(w)
所佔的比重增大,約束引數。
這裡挑選部分範數說明。
l0範數是指向量中非零元素的個數。如果用l0規則化乙個引數矩陣w,就是希望w中大部分元素是零,實現稀疏化。
l1範數也稱為曼哈頓距離。
如圖,目標函式是(w1,w2)空間上的等高線,l1範數則是乙個正方形。兩者最優解在相交於座標軸處。那麼存在乙個權重引數為0,即稀疏化。
l0和l1都可以實現稀疏化,不過一般選用l1而不用l0,原因包括:1)l0範數很難優化求解(np難);2)l1是l0的最優凸近似,比l0更容易優化求解。(這一段解釋過於數學化,姑且當做結論記住)
l2範數也稱為歐幾里得距離和。
與l1範數不同的是l2範數與目標函式最優解並不在座標軸上,l2會選擇更多特徵。但因為l2範數的規則項||w||2 盡可能小,可以使得w每個元素都很小,接近於零。
深度學習學習總結
北京大學人工智慧實踐 tensorflow2.0 學習1 6章 複習1 4章 第4章需要寫乙個部落格 寫4,5,6章 吳恩達深度學習第四步 卷積神經網路 學習1 2周 複習1 2周 殘差網路和inception網路不太懂,目前用不到 三四周是目標定位,人臉識別,神經風格轉換目前用不到 油管最新最熱t...
深度學習 L1及L2範數
在深度學習中,監督類學習問題其實就是在規則化引數同時最小化誤差。最小化誤差目的是讓模型擬合訓練資料,而規則化引數的目的是防止模型過分擬合訓練資料。引數太多,會導致模型複雜度上公升,容易過擬合,也就是訓練誤差小,測試誤差大。因此,我們需要保證模型足夠簡單,並在此基礎上訓練誤差小,這樣訓練得到的引數才能...
深度學習(一)深度學習學習資料
持續更新 一 學習清單 1 收集了各種最新最經典的文獻,神經網路的資源列表 2 計算機視覺學習清單 3 機器學習學習清單 二 訓練資料 人臉資料 1 香港中文大學訓練資料集 此資料庫包含了20w張人臉,每張標註了5個特徵點 以及幾十種屬性 是否微笑 膚色 髮色 性別等屬性 2 68個人臉特徵點 3 ...