機器學習基石HOW BETTER部分 2

2021-07-09 01:33:00 字數 4240 閱讀 6762

標籤:機器學習基石

minimizes augmented error, where the added regularizer effectively limits model complexity

主要思想:將假設函式從高次多項式降至低次。

發生overfitting的乙個重要原因可能是假設過於複雜了,我們希望在假設上做出讓步,用稍簡單的模型來學習,避免overfitting。例如,原來的假設空間是10次曲線,很容易對資料過擬合;我們希望它變得簡單些,比如w 向量只保持三個分量(其他分量為零)。

已知高次多項式包含低次多項式,因此高次函式和低次函式的關係如圖所示,本章的內容是在使用高次函式過擬合時,如何將假設函式降低為低次,即如何從外圍的大圈中回歸到內部的小圈。

加上乙個限制條件w3

=w4=

...=

w10=0

,那就會有h2

=h10 .

所以我們也可以這樣理解step back = constraint。

確定後面8個分量為0的限制過於嚴格了,我們可以放寬條件,有任意8個分量為0.

確定有幾個分量為0的優化問題是np-hard的。如果對w 進行更soft/smooth的約束,可以使其更容易優化,所以繼續放寬條件,令||

wtw|

|2小於等於乙個常數c就好了:

我們將此時的假設空間記為h(c),這是「正則化的假設空間」。正則化假設空間中最好的假設用符號wr

eg表示。

為了表述簡便,我們把上一節的最優化公式寫成向量矩陣的形式。

首先繪製有限制條件的最優化示意圖,圖中藍色部分為,紅色部分為限制條件,從表達公式不難得出兩者乙個為橢圓,乙個為圓形(在高維空間中式超球體)。

從第十章中了解在求解最小ei

n 時,可用ei

n 梯度的反方向,即−∇

ein 作為下降方向,但是與回歸問題還有一些不同,此處多了限制條件,因此下降的方向不可以超出限制的範圍.

限制就是wt

w=c 的球,球的法向量就是w.

往法向量走會滾出去,所以不能往法向量走。

可以往法向量的垂直方向走。 當−

∇ein

在法向量的垂直方向有分量,就代表球可以往法向量的垂直方向滾。 直到−

∇ein

在法向量的垂直方向沒有分量,也就是−∇

ein 與wr

eg。 要有−

∇ein

(wre

g)∝w

reg 就是找到lagrange multiplier

λ > 0 and wr

eg使得∇e

in(w

reg)

+2λn

wreg

=0其實也就是2n

(ztz

wreg

−zty

)+2λ

nwre

g=0

告訴你λ

>

0 ,那就剩下乙個未知數wr

eg。

linear regression裡的東西套用過來,有: wr

eg←(

ztz+

λi)−

1zty

這個東西在統計學裡叫做 ridge regression。

假如說不是ridge regression,怎麼做呢。

就是把∇ei

n(wr

eg)+

2λnw

reg=

0 積分,得到ei

n(w)

+λnw

tw其中該表示式稱為增廣錯誤(augmented error),用ea

ug(w

) 表示,其中wt

w 為正則化項(regularizer)。用無限制條件的ea

ug(w

) 取代了上節中提到的有限制條件的ei

n(w)

.在λ>

0 或λ=

0 時(λ=

0 的情況是線性回歸的求解),最小w的求解公式為: wr

eg←a

rgmi

nwea

ug(w

)for

give

nλ>0o

rλ=0

λ的大小對wr

eg的影響

=0時,過擬合,隨著

λ 的不斷增大變成了欠擬合狀態。越大的

λ 對應著越短的權值向量w,同時也對應著越小的約束半徑c。(上一節中處理欠擬合,將c盡量縮小,準確的說尋找小的權值向量w),因此這種將w變小的正則化,即加上fr

acλn

wtw 的正則化稱為權重衰減(weight-decay)正則化。此種正則化,可以和任意的轉換函式及任意的線性模型結合。

根據在前面章節學過的vc理論,ei

n 和eo

ut的差距就代表了模型的複雜度。假設越複雜的時候,,ei

n 和eo

ut的差距就越大。

乙個複雜的假設空間h,它的ei

n 和eo

ut的差距可能會很大。

通過正則化,把h變成h(c),從而降低複雜度,減小ei

n 和eo

ut的差距。

和h比起來,h(c)是收到約束的,所以h(c)的vc維會比h小。

target-dependent:假如知道目標函式的一些特性,我們可以盡量設計接近目標函式的函式。比如目標函式是偶函式,那麼就把奇函式做正則化。

plausible:讓線更平滑更簡單。跳來跳去的一般就是噪音,我們應該忽略那些跳來跳去的點,讓線更加平滑。

friendly:更加容易做最優化

即使設計的正則化項不好也不用擔心,因為還存在乙個引數/l

amda

,當其為0時,則正則化項不起作用。

l2的正則化

該正則化項在為凸函式,在每個位置都可以微分,因此比較容易計算。

l1的正則化

1 同樣也是凸圖形,但是並不是所有的位置都可微,如轉角處。

為何成為稀疏?假設菱形法相w全是不為零的分量,因此微分得的向量為分量全為1的向量。如果−∇

ein(

w)與該全為1的向量不平行,則向量一直會沿著菱形邊界移動到頂點處,因此在頂點處產生最優解,最優解含有值為0的分量,因此為稀疏的解,計算速度快。

在結束本章前,觀察在不同噪音情況下,引數如何選擇。目標函式設計成15次多項式函式,下圖表示固定確定性噪音,不同隨機性噪音下,引數

\lamda

最佳選擇,橫座標表示引數

\lamda

的選擇,縱座標表示eo

ut,其中加粗的點表示在該種噪音情況下引數的最佳取值。

表示固定隨機性噪音,不同確定性噪音下,引數

\lamda

最佳選擇.

越大的噪音需要越大的正則化,這如同越顛簸的路,越需要踩剎車一樣。但是乙個更重要的問題卻沒有解決,即在噪音未知的情況下,如何選擇引數,這是下章的內容。

機器學習基石(6)

希望m最終能取代m 假設集大小 到底m會不會漲的很慢?假設的數量不會太多?如果長得很慢,能不能取代掉原來的m?mh成長函式 到底這個假設集,在n個點上,到底能產生多少種dichotomies?如果是positive rays,在n 2時候就露出破綻,不能產生那種情形 如果是positive inte...

機器學習基石 學習型別

二分類 多分類回歸 結構化學習 nlp領域相關 無監督學習 半監督學習 有監督學習 增強學習 沒有真實的輸出y,根據模型的輸出反饋,如果反饋結果良好,更接近真實輸出,就給其正向激勵,如果反饋結果不好,偏離真實輸出,就給其反向激勵。batch learning online learning acti...

台大機器學習基石 1

機器學習對於適用場景有一定的前提條件 可以找到某種模式 不容易程式設計實現,不能對目標下乙個簡單的定義 能找到訓練的資料,資料量越大越好 使用機器學習的乙個小例子 銀行信用卡批准 例如銀行會收到申請客戶的個人資料,然後根據個人資訊進行分析,選擇是否發放信用卡,以達到銀行最大收益。機器學習所扮演的角色...