所有的機器學習需要的能力都不是針對標籤已知的樣本進行判別決策的能力,而是正對未知樣本能夠正確**的能力,但是在我們的模型學習過程中,會出現一些過猶不及的現象。
過度擬合(overfitting), 實際上是為了盡可能的減小訓練集的誤差,從而導致模型過度複雜,泛化能力下降的情況。所謂泛化能力,指的就是對未知樣本的**能力。
如圖所示,在**面積和房價的案例中。如果我們使用線性圖一,過於簡單的模型,會使得樣本偏離變大,這個叫做欠擬合。而使用第三個曲線,雖然訓練樣本的方差很小,但是其的泛化能力反而不如圖二,原因是引入的方差過大,這就是過度擬合。我們希望選擇圖二這種平滑而有效的模型
使得模型更加簡單
減小過度擬合的可能性(θ
)=12
m[∑i
=1m(
hθ(x
(i)−
y(i)
))]j(\theta)=\frac[\sum_^(h_\theta( x^-y^))]
j(θ)=2
m1[
i=1∑
m(h
θ(x
(i)−
y(i)
))]在這個過程中,為了獲得盡可能小的引數我們在代價函式中加入如下的項:
j (θ
)=12
m[∑i
=1m(
hθ(x
(i)−
y(i)
))+λ
∑j=1
mθj2
]j(\theta)=\frac[\sum_^(h_\theta( x^-y^))+\lambda \sum_^\theta_j^2]
j(θ)=2
m1[
i=1∑
m(h
θ(x
(i)−
y(i)
))+λ
j=1∑
mθj
2]我們通過選擇合適的θ
\theta
θ 值來優化上面的代價函式。
值得注意得是,λ
\lambda
λ相當於對θ
\theta
θ大小的代價因子,不宜選擇過大。否則我們會趨於將所有的θ
\theta
θ都取為0,這個時候我們的模型就接近乙個常數模型了(除了第乙個引數以外,所有的引數都為0的情況)
我們對回歸正則化以後,
j (θ
)=12
m[∑i
=1m(
hθ(x
(i)−
y(i)
))+λ
∑j=1
mθj2
]j(\theta)=\frac[\sum_^(h_\theta( x^-y^))+\lambda \sum_^\theta_j^2]
j(θ)=2
m1[
i=1∑
m(h
θ(x
(i)−
y(i)
))+λ
j=1∑
mθj
2]也就是說需要求解引數使得j最小
min θ
j(θ)
\min_ j(\theta)
θminj
(θ)我們依然使用梯度下降,也就是對正則因子進行求偏導:
θ j:
=θj−
α∂∂θ
jj(θ
)\theta_j :=\theta_j-\alpha \fracj(\theta)
θj:=θ
j−α
∂θj
∂j(
θ)也就是,
θ j:
=θj−
α[1m
∑i=1
m(hθ
(xi)
−yi)
xji+
λmθj
]\theta_j :=\theta_j-\alpha [\frac\sum_^(h_\theta(x^i)-y^i)x_j^i+\frac\theta_j]
θj:=θ
j−α
[m1
i=1∑
m(h
θ(x
i)−y
i)xj
i+m
λθj
]也就是θj:
=(1−
αλm)
θj−α
1m∑i
=1m(
hθ(x
i)−y
i)xj
i\theta_j :=(1-\alpha\frac)\theta_j-\alpha \frac\sum_^(h_\theta(x^i)-y^i)x_j^i
θj:=(
1−αm
λ)θ
j−α
m1i
=1∑m
(hθ
(xi
)−yi
)xji
請和我一起學習機器學習演算法 k means
k means 是一種聚類演算法,具有隨機,無監督的特點。也叫k中心值聚類。其中的k,表示的是要分成類別的數量,也就是說你最終要分成幾堆。k means 是一通過距離情況優化中心的策略來實現聚類。具有一定的隨機性。演算法步驟如下 演算法輸入 訓練資料x x x k 想聚類的數目 隨機在訓練資料中選取...
和我一起學習OC吧
oc基礎 xcold中.m檔案包含了oc 由oc編譯器處理,c編譯器處理.c檔案,c 編譯器處理.cpp檔案 import和include的區別是確保檔案製備包含一次 import告訴編譯器檢視fundation框架中的fundation標頭檔案,框架是乙個技術的集合體,包括標頭檔案庫,影象和聲音,...
機器學習 機器學習試題 一
在網上找的一些試題及延伸的一些問題,以選擇題為主,主要是關於基礎理論知識,同時給出自己聯想到的一些問題。當然基礎問題應當包含演算法本身的過程和某些推導過程。比如 lr svm的推導。試題1 已知座標軸中兩點a 2,2 b 1,2 求 這兩點的曼哈頓距離 l1距離 答案 7 向量ab 3,4 l1 是...