參看部落格:
* lasso可以做特徵選擇(轉化為求解次梯度:owl-qn)
=> 性質(證明略)
選模型**值是有偏估計(劣勢)
選模型**的殘差小(優勢)
選模型有可能**的均方誤差比全模型小
=> 自變數的選擇是有益的∑i
=1n(
yi−y
¯)2 : 總離差平方和=sst ∑i
=1n(
yi^−
y¯)2
:回歸平
方和=s
sr ∑
i=1n
(yi−
y^)2
:殘差平
方和=s
se
增減變數後, ss
ep+1
≤sse
p 因為:sst於自變數無關,所以r2
p+1≥
r2p
準則1. 自由度調整復決定係數達到最大
準則2. 赤池資訊量aic達到最小(aic最小的為最優的): aic=nln(ssse)+2p
準則3. cp
統計量達到最小 ∑
i=1n
(yi−
y¯)2
=∑i=
1n(y
i^−y
¯)2+
∑i=1
n(yi
−y^)
2 ∑
i=1n
(yi−
y¯)2
:總離差
平方和=
sst
∑i=1
n(yi
^−y¯
)2:回
歸平方和
=ssr
∑i=1n(y
i−y^
)2:殘
差平方和
=sse
sst=ssr
+sse
檢查自變數x1
,...
xp從整體上是否對隨機變數y有明顯的影響f=
ssr/
psse
(n−p
+1)
機器學習 最小二乘
大家可以隨意搜尋一下,相關的文章很多。長篇大論的不少,剛入門的朋友一看到那些公式可能就看不下去了。比如下面的解釋 毫無疑問,這樣的解釋是專業的,嚴謹的。事實上,這是深度學習聖經裡的解釋。我並沒有詆毀大師的意思,只是覺得用乙個具體的例子來說明,可能會讓讀者更加容易理解。小明是跑運輸的,跑1公里需要6塊...
sklearn 最小二乘線性回歸
sklearn是機器學習中的乙個常用的python第三方模組,裡面對機器學習的許多方法進行了封裝,在進行機器學習的任務時,許多常用的演算法可在這個模組中直接呼叫。並且sklearn中還提供了許多可用於分類 回歸的優質資料集。使用好sklearn最直接的方法就是仔細閱讀官方 sklearn就像是乙個模...
線性回歸 最小二乘 diabetes
資料集 特徵 age 年齡 性別 bmi 體質指數 bp 血壓 s1,s2,s3,s4,s4,s6 六種血清的化驗資料 標籤 value 一年後疾病進展的量化指標 一 載入庫 import numpy as np import pandas as pd from sklearn import dat...