機器學習基石HOW部分 1

2021-07-09 01:30:56 字數 3141 閱讀 3065

標籤:機器學習基石

analytic solution wl

in=x

†ywith linear regression hypotheses and squared error

從方程的形式、誤差的衡量方式、如何最小化ei

n 的角度出發,並簡單分析了hat matrix的性質與幾何意義,希望對線性回歸這一簡單的模型有個更加深刻的理解。

linear regression hypothesis:h(

x)=w

tx,長得很像 perceptron,只不過是少了sign。

線性回歸:尋找直線。平面或者超平面,使得輸入資料的殘差最小(殘差是指觀測值與**值(擬合值)之間的差,即是實際觀察值與回歸估計值的差。在回歸分析中,測定值與按回歸方程**的值之差,以δ表示。殘差δ遵從正態分佈n(0,σ2)。)

平方誤差(squared error):ei

n(hw

)=1n

∑n=1

n(h(

xn)−

yn)2

eout(hw

)=1n

e(x,

y)p(

h(xn

)−yn

)2先看看ei

n 的矩陣能夠怎樣表示: ei

n(hw

)=1n

∑n=1

n(wt

xn−y

n)2

=1n∑

n=1n

(xtn

w−yn

)2=1

n||x

w−y|

|2現在很明顯,要得到最小的ei

n 就是把上面的矩陣最小化。 mi

nwei

n(w)

=1n|

|xw−

y||2

x與y**於d,是固定不變的,因此它是乙個以w為變數的函式。畫畫e

in的圖,它是連續,處處可微的凸函式。

圖如下:

很明顯,當ei

n 的曲線到達谷底的時候,ei

n 有最小值。結合微積分的只是,當曲線的導數為0的時候,ei

n 最小。

於是,要得到最小的ei

n 就變成了找到wl

in使得 ∇e

in(w

lin)

=0.

把微分從一元的簡單形式開始計算,然後推廣到多元。經過計算得到∇e

in(w

)=2n

(xtx

w−xt

y)現在就是要找到wl

in使得∇e

in(w

)=2n

(xtx

w−xt

y)=0

當xtx

可逆的時候,答案還是很容易算出來的。就是讓xt

xw=x

ty,然後就可以得到ei

n(wl

in)=

(xtx

−1xt

y)因為

n>>d+

1 ,所以xt

x 一般都是可逆的,此時解是唯一的。 如果x

tx不可逆,那就會有許多解了。xt

x 可逆,可以用乙個神奇的x†

來代替(x

tx)−

1xt ,由此, ei

n(wl

in)=

x†y

用以wli

n 為引數的線性方程對原始資料做**,可以得到擬合值y=

xwli

n=xx

†y。這裡又稱h=xx†為hat matrix,帽子矩陣,h為y帶上了帽子,成為y^

,取名字取得很形象。

假設y由f(x)∈span+noise構成的。有y=f(x)+noise。之前講到h作用於某個向量,會得到該向量在span上的投影,而i−h作用於某個向量,會得到那條與span垂直的向量,在這裡就是圖中的y−y^

,即(i

−h)n

oise

=y− \hat$。

這個y−y^

是真實值

與**值

的差,其

長度就是

就是所有

點的平方

誤差之和

。於是就

有: e

in(w

lin)

=1n|

|y−y

^||2

=1n|

|(i−

h)no

ise|

|2 =

1ntr

ace(

i−h)

||no

ise|

|2 =

1n(n

−(d+

1))|

|noi

se||

2 因此

¯¯和eou

t¯¯¯

¯¯¯ 都都向σ2

(noise level)收斂,並且他們之間的差異被2(

d+1)

n 給bound住了。有那麼點像vc bound,不過要比vc bound來的更嚴格一些。

所以,兜兜轉轉,說明了用線性回歸,學習是可行的。

機器學習基石HOW BETTER部分 2

標籤 機器學習基石 minimizes augmented error,where the added regularizer effectively limits model complexity 主要思想 將假設函式從高次多項式降至低次。發生overfitting的乙個重要原因可能是假設過於複雜...

台大機器學習基石 1

機器學習對於適用場景有一定的前提條件 可以找到某種模式 不容易程式設計實現,不能對目標下乙個簡單的定義 能找到訓練的資料,資料量越大越好 使用機器學習的乙個小例子 銀行信用卡批准 例如銀行會收到申請客戶的個人資料,然後根據個人資訊進行分析,選擇是否發放信用卡,以達到銀行最大收益。機器學習所扮演的角色...

機器學習基石(6)

希望m最終能取代m 假設集大小 到底m會不會漲的很慢?假設的數量不會太多?如果長得很慢,能不能取代掉原來的m?mh成長函式 到底這個假設集,在n個點上,到底能產生多少種dichotomies?如果是positive rays,在n 2時候就露出破綻,不能產生那種情形 如果是positive inte...