機器學習筆記 回歸 4 最小二乘問題(2)

2021-07-07 09:06:06 字數 1044 閱讀 7903

參看部落格:

* lasso可以做特徵選擇(轉化為求解次梯度:owl-qn)

=> 性質(證明略)

選模型**值是有偏估計(劣勢)

選模型**的殘差小(優勢)

選模型有可能**的均方誤差比全模型小

=> 自變數的選擇是有益的∑i

=1n(

yi−y

¯)2 : 總離差平方和=sst ∑i

=1n(

yi^−

y¯)2

:回歸平

方和=s

sr ∑

i=1n

(yi−

y^)2

:殘差平

方和=s

se

增減變數後, ss

ep+1

≤sse

p 因為:sst於自變數無關,所以r2

p+1≥

r2p

準則1. 自由度調整復決定係數達到最大

準則2. 赤池資訊量aic達到最小(aic最小的為最優的): aic=nln(ssse)+2p

準則3. cp

統計量達到最小 ∑

i=1n

(yi−

y¯)2

=∑i=

1n(y

i^−y

¯)2+

∑i=1

n(yi

−y^)

2 ∑

i=1n

(yi−

y¯)2

:總離差

平方和=

sst

∑i=1

n(yi

^−y¯

)2:回

歸平方和

=ssr

∑i=1n(y

i−y^

)2:殘

差平方和

=sse

sst=ssr

+sse

檢查自變數x1

,...

xp從整體上是否對隨機變數y有明顯的影響f=

ssr/

psse

(n−p

+1)

機器學習 最小二乘

大家可以隨意搜尋一下,相關的文章很多。長篇大論的不少,剛入門的朋友一看到那些公式可能就看不下去了。比如下面的解釋 毫無疑問,這樣的解釋是專業的,嚴謹的。事實上,這是深度學習聖經裡的解釋。我並沒有詆毀大師的意思,只是覺得用乙個具體的例子來說明,可能會讓讀者更加容易理解。小明是跑運輸的,跑1公里需要6塊...

sklearn 最小二乘線性回歸

sklearn是機器學習中的乙個常用的python第三方模組,裡面對機器學習的許多方法進行了封裝,在進行機器學習的任務時,許多常用的演算法可在這個模組中直接呼叫。並且sklearn中還提供了許多可用於分類 回歸的優質資料集。使用好sklearn最直接的方法就是仔細閱讀官方 sklearn就像是乙個模...

線性回歸 最小二乘 diabetes

資料集 特徵 age 年齡 性別 bmi 體質指數 bp 血壓 s1,s2,s3,s4,s4,s6 六種血清的化驗資料 標籤 value 一年後疾病進展的量化指標 一 載入庫 import numpy as np import pandas as pd from sklearn import dat...