上述三幅圖展示了,不同假設函式hθ(
x)h_\theta(x)
hθ(x)
對於同一訓練集的擬合情況。
因此,我們在設計假設函式hθ(
x)h_\theta(x)
hθ(x)
時,不能過分地追求對訓練集的擬合程度,只需其擬合程度達到上述圖中中間圖的擬合程度即可。
*補充:*給定乙個假設空間h
hh,乙個假設h
hh屬於h
hh,如果存在其他的假設h
1h_1
h1,使得在訓練樣例上h
hh的錯誤率比h
1h_1
h1好,但在整個個例項分布上h
1h_1
h1的錯誤率比h
hh小,那麼就說假設h
hh出現過擬合的情況。欠擬合的定義與之相似。1
區域性加權線性回歸(locally weight linear regression,lwr)演算法顧名思義為線性回歸演算法的擴充套件,當目標假設為線性模型時,因此我們採用線性回歸;但如果目標假設不是線性模型,比如乙個忽上忽下的的函式,這時用線性模型就擬合的很差。為了解決這個問題,當我們在**乙個點的值時,我們選擇和這個點相近的點而不是全部的點做線性回歸。基於這個思想,就有了區域性加權回歸演算法。
原始線性回歸演算法:
找到引數θ
\theta
θ使其最小化∑i(
y(i)
−θtx
(i))
2\sum_i(y^ - \theta^tx^)^2
∑i(y(
i)−θ
tx(i
))2;
輸出θ tx
\theta^tx
θtx。
區域性加權線性回歸演算法:
找到引數θ
\theta
θ使其最小化∑iω
(i)(
y(i)
−θtx
(i))
2\sum_i \omega^(y^ - \theta^tx^)^2
∑iω(i
)(y(
i)−θ
tx(i
))2;
輸出θ tx
\theta^tx
θtx。
兩者相互比較可知,在最小化∑i(
y(i)
−θtx
(i))
2\sum_i(y^ - \theta^tx^)^2
∑i(y(
i)−θ
tx(i
))2時,區域性加權線性回歸演算法新增了權值ω(i
)\omega^
ω(i)
。其作用為根據要**的點與資料集中的點的距離來為訓練集中的點賦予權值,當某點距離待**點較遠時,其權重較小;反之則權重較大。
ω (i
)=ex
p(−(
x(i)
−x)2
2τ2)
\omega^ = exp(-\frac - x)^2})
ω(i)=e
xp(−
2τ2(
x(i)
−x)2
)其中,引數τ
\tau
τ稱為波長引數,其控制權值隨距離增大而下降的速率。
注:若x
xx為向量,則權值ω(i
)\omega^
ω(i)
將改寫為:
ω (i
)=ex
p(−(
x(i)
−x)t
(x(i
)−x)
2τ2)
\omega^ = exp(-\frac - x)^t(x^ - x)})
ω(i)=e
xp(−
2τ2(
x(i)
−x)t
(x(i
)−x)
)或者為:
ω (i
)=ex
p(−(
x(i)
−x)t
σ−1(
x(i)
−x)2
)\omega^ = exp(-\frac - x)^t\sigma^(x^ - x)})
ω(i)=e
xp(−
2(x(
i)−x
)tς−
1(x(
i)−x
))補充:
↩︎
CS50 2013 Week5 學習筆記
本以為這節課很難。但是課中講的array linked list stack queue binary search tree hash table,剛好以前都看到過。前面課程中提到過。比如int a 8 語句。定義乙個能儲存8個整型資料的陣列a,系統會為陣列a分配一片連續的儲存空間 例如,1201...
CS224D學習筆記
第二次看了,理解深了一些 2017.7.24 傳統方法 通過統計乙個單詞周圍的單詞的頻率,獲得每個單詞的wordvec,然後通過svd降維,去除較大奇異值的矩陣,把vec長度在25 1000內。缺點是1.單詞很多的時候svd複雜度很高 2.要新增新單詞時很困難,擴充套件性差 深度學習可以部分解決。w...
CS230學習筆記 一
ok,前思後想,左思右想,我還是覺得自己得督促一下自己,所以,我覺得開始更新cs230的筆記,當然,我前面的六篇pytorch學習筆記我是不會放著不管的,後面肯定會繼續更新,但現在我想先豐富一下自己的知識庫,讓自己能寫出更好的部落格,這次cs230的學習筆記我想法是不僅進行課上總結,相應的assig...