邏輯回歸與過擬合問題

分類問題（classification）是機器學習要解決的另一大類問題，這裡用到的方法是邏輯回歸（logistic regression），也是目前機器學習領域應用最廣泛的方法。先從基本的二分類問題入手，即輸出

y 只有0,

1兩種結果。

對於分類問題，只有離散有限的取值，顯而易見的，用線性回歸的表示方法並不能很好地表示，因此需要把假設函式的形式改寫一下，引入s型函式（sigmoid function），也稱邏輯函式（logistic function）。改寫形式如下： hθ

(x)=

g(θt

x) g

(z)=

11+e

−z 即

hθ(x

)=11

+e−θ

tx直觀地看g(

z)（s型函式）的影象是

其值域的範圍是(0

,1) ，定義域是(−

∞,+∞

) 。這樣，就把乙個離散的問題轉化成乙個連續函式表示的問題，可以看做是hθ

(x) 表示

y 輸出1的概率，用概率的數學表示是： hθ

(x)=

p(y=

1|x;

θ)=1

−p(y

=0|x

;θ)例如，hθ

(x)=

0.7 表示y=

1 的概率是

0.7 ，此時y=

0 的概率是

0.3 。這樣，可以通過計算hθ

(x) 的值**

y ，當hθ

(x)≥

0.5時認為y=

1 ，當hθ

(x)<

y 時認為y=

0 。通過計算hθ

(x)≥

0.5 和hθ

(x)<

0.5 時

x 的取值範圍，可以得到y=

1和y=

0 的分界，這條界線稱為決策邊界（decision boundary）。

決策邊界並不一定是直線，對於非線性的情況，會出現不同的形狀。

而另一點需要強調的是，決策邊界並不是樣本的性質，而是決定於假設函式，或者說對問題的建模。

模擬於線性回歸，需要建立乙個代價函式（cost function）來表示假設函式hθ

(x) 與輸出

y j(

θ)=c

ost(

hθ(x

),y)

對於標準方程法，改寫成： θ=

(xtx

+λl)

−1xt

y 其中l

=⎡⎣⎢

⎢⎢⎢⎢

⎢⎢01

1⋱1⎤

⎦⎥⎥⎥

⎥⎥⎥⎥

改寫成這樣有乙個附加好處，就是加入λl

項後矩陣一定可逆。

對於邏輯回歸，代價方程改寫為： j(

θ)=−

1m∑i

=1m[

y(i)

log(

hθ(x

(i))

)+(1

−y(i

))lo

g(1−

hθ(x

(i))

)]+λ

2m∑j

=1nθ

2j而梯度下降法的迭代方程與線性回歸中的形式一樣，只是其中假設函式的表示式不一樣。

邏輯回歸與過擬合問題

機器學習邏輯回歸2 多分類問題和過擬合問題

線性回歸 4 欠擬合過擬合與區域性加權線性回歸

過擬合問題

邏輯回歸與過擬合問題

機器學習 邏輯回歸2 多分類問題和過擬合問題

線性回歸 4 欠擬合 過擬合與區域性加權線性回歸

過擬合問題

相關推薦

機器學習邏輯回歸2 多分類問題和過擬合問題

線性回歸 4 欠擬合過擬合與區域性加權線性回歸