標籤:機器學習基石
minimizes augmented error, where the added regularizer effectively limits model complexity
主要思想:將假設函式從高次多項式降至低次。
發生overfitting的乙個重要原因可能是假設過於複雜了,我們希望在假設上做出讓步,用稍簡單的模型來學習,避免overfitting。例如,原來的假設空間是10次曲線,很容易對資料過擬合;我們希望它變得簡單些,比如w 向量只保持三個分量(其他分量為零)。
已知高次多項式包含低次多項式,因此高次函式和低次函式的關係如圖所示,本章的內容是在使用高次函式過擬合時,如何將假設函式降低為低次,即如何從外圍的大圈中回歸到內部的小圈。
加上乙個限制條件w3
=w4=
...=
w10=0
,那就會有h2
=h10 .
所以我們也可以這樣理解step back = constraint。
確定後面8個分量為0的限制過於嚴格了,我們可以放寬條件,有任意8個分量為0.
確定有幾個分量為0的優化問題是np-hard的。如果對w 進行更soft/smooth的約束,可以使其更容易優化,所以繼續放寬條件,令||
wtw|
|2小於等於乙個常數c就好了:
我們將此時的假設空間記為h(c),這是「正則化的假設空間」。正則化假設空間中最好的假設用符號wr
eg表示。
為了表述簡便,我們把上一節的最優化公式寫成向量矩陣的形式。
首先繪製有限制條件的最優化示意圖,圖中藍色部分為,紅色部分為限制條件,從表達公式不難得出兩者乙個為橢圓,乙個為圓形(在高維空間中式超球體)。
從第十章中了解在求解最小ei
n 時,可用ei
n 梯度的反方向,即−∇
ein 作為下降方向,但是與回歸問題還有一些不同,此處多了限制條件,因此下降的方向不可以超出限制的範圍.
限制就是wt
w=c 的球,球的法向量就是w.
往法向量走會滾出去,所以不能往法向量走。
可以往法向量的垂直方向走。 當−
∇ein
在法向量的垂直方向有分量,就代表球可以往法向量的垂直方向滾。 直到−
∇ein
在法向量的垂直方向沒有分量,也就是−∇
ein 與wr
eg。 要有−
∇ein
(wre
g)∝w
reg 就是找到lagrange multiplier
λ > 0 and wr
eg使得∇e
in(w
reg)
+2λn
wreg
=0其實也就是2n
(ztz
wreg
−zty
)+2λ
nwre
g=0
告訴你λ
>
0 ,那就剩下乙個未知數wr
eg。
linear regression裡的東西套用過來,有: wr
eg←(
ztz+
λi)−
1zty
這個東西在統計學裡叫做 ridge regression。
假如說不是ridge regression,怎麼做呢。
就是把∇ei
n(wr
eg)+
2λnw
reg=
0 積分,得到ei
n(w)
+λnw
tw其中該表示式稱為增廣錯誤(augmented error),用ea
ug(w
) 表示,其中wt
w 為正則化項(regularizer)。用無限制條件的ea
ug(w
) 取代了上節中提到的有限制條件的ei
n(w)
.在λ>
0 或λ=
0 時(λ=
0 的情況是線性回歸的求解),最小w的求解公式為: wr
eg←a
rgmi
nwea
ug(w
)for
give
nλ>0o
rλ=0
λ的大小對wr
eg的影響
=0時,過擬合,隨著
λ 的不斷增大變成了欠擬合狀態。越大的
λ 對應著越短的權值向量w,同時也對應著越小的約束半徑c。(上一節中處理欠擬合,將c盡量縮小,準確的說尋找小的權值向量w),因此這種將w變小的正則化,即加上fr
acλn
wtw 的正則化稱為權重衰減(weight-decay)正則化。此種正則化,可以和任意的轉換函式及任意的線性模型結合。
根據在前面章節學過的vc理論,ei
n 和eo
ut的差距就代表了模型的複雜度。假設越複雜的時候,,ei
n 和eo
ut的差距就越大。
乙個複雜的假設空間h,它的ei
n 和eo
ut的差距可能會很大。
通過正則化,把h變成h(c),從而降低複雜度,減小ei
n 和eo
ut的差距。
和h比起來,h(c)是收到約束的,所以h(c)的vc維會比h小。
target-dependent:假如知道目標函式的一些特性,我們可以盡量設計接近目標函式的函式。比如目標函式是偶函式,那麼就把奇函式做正則化。
plausible:讓線更平滑更簡單。跳來跳去的一般就是噪音,我們應該忽略那些跳來跳去的點,讓線更加平滑。
friendly:更加容易做最優化
即使設計的正則化項不好也不用擔心,因為還存在乙個引數/l
amda
,當其為0時,則正則化項不起作用。
l2的正則化
該正則化項在為凸函式,在每個位置都可以微分,因此比較容易計算。
l1的正則化
1 同樣也是凸圖形,但是並不是所有的位置都可微,如轉角處。
為何成為稀疏?假設菱形法相w全是不為零的分量,因此微分得的向量為分量全為1的向量。如果−∇
ein(
w)與該全為1的向量不平行,則向量一直會沿著菱形邊界移動到頂點處,因此在頂點處產生最優解,最優解含有值為0的分量,因此為稀疏的解,計算速度快。
在結束本章前,觀察在不同噪音情況下,引數如何選擇。目標函式設計成15次多項式函式,下圖表示固定確定性噪音,不同隨機性噪音下,引數
\lamda
最佳選擇,橫座標表示引數
\lamda
的選擇,縱座標表示eo
ut,其中加粗的點表示在該種噪音情況下引數的最佳取值。
表示固定隨機性噪音,不同確定性噪音下,引數
\lamda
最佳選擇.
越大的噪音需要越大的正則化,這如同越顛簸的路,越需要踩剎車一樣。但是乙個更重要的問題卻沒有解決,即在噪音未知的情況下,如何選擇引數,這是下章的內容。
機器學習基石(6)
希望m最終能取代m 假設集大小 到底m會不會漲的很慢?假設的數量不會太多?如果長得很慢,能不能取代掉原來的m?mh成長函式 到底這個假設集,在n個點上,到底能產生多少種dichotomies?如果是positive rays,在n 2時候就露出破綻,不能產生那種情形 如果是positive inte...
機器學習基石 學習型別
二分類 多分類回歸 結構化學習 nlp領域相關 無監督學習 半監督學習 有監督學習 增強學習 沒有真實的輸出y,根據模型的輸出反饋,如果反饋結果良好,更接近真實輸出,就給其正向激勵,如果反饋結果不好,偏離真實輸出,就給其反向激勵。batch learning online learning acti...
台大機器學習基石 1
機器學習對於適用場景有一定的前提條件 可以找到某種模式 不容易程式設計實現,不能對目標下乙個簡單的定義 能找到訓練的資料,資料量越大越好 使用機器學習的乙個小例子 銀行信用卡批准 例如銀行會收到申請客戶的個人資料,然後根據個人資訊進行分析,選擇是否發放信用卡,以達到銀行最大收益。機器學習所扮演的角色...