前面介紹了線性回歸的問題,這裡接著引出邏輯回歸的問題,一般邏輯回歸用於解決分類問題,以二分類為例。
sigmoid函式
sigmoid是乙個非線性函式,也是一種啟用函式,表示式為g(
x)=1
1+e−
x 主要為了去線性化其影象如下,而且具有良好的性質,中心對稱,光滑可導。
sigmoid函式的導數
我們來看一下sigmoid函式的導數是什麼樣的(後面用梯度下降的方法的時候需要用到) g′
(x)=
(11+
e−x)
′=e−
x(1+
e−x)
2=1(
1+e−
x)2⋅
e−x(
1+e−
x)2=
1(1+
e−x)
2⋅(1
−e−x
(1+e
−x)2
)=g(
x)⋅(
1−g(
x))
假設函式hθ
(x) :
應用sigmoid函式的話,假設函式變為;hθ
=g(θ
tx)=
11+e
−θtx
給定樣本x1
,x2⋯
xn及樣本類別y1
,y2,
⋯yn 其中yi
∈ 我們做如下假設(分別表示給定樣本的情況下,y屬於哪個類別的條件概率): p(
y=1∣
x;θ)
p(y=
0∣x;
θ)=h
θ(x)
=1−h
θ(x)
對於上面的兩個式子,我們可以繼續整合如下: p(
y∣x;
θ)=(
hθ(x
))y(
1−hθ
(x))
1−y
因為現在x,y都是已知的,我們需要估計的引數是
θ ,所以對於上述的式子,我們可以用極大似然估計來求θ
l(θ)
=∏i=
1np(
y(i)
∣x(i
);θ)
=∏i=
1n(h
θ(x)
)y(1
−hθ(
x))1
−y取對數得對數似然: l(
θ)=l
ogl(
θ)=∑
i=1n
y(i)
logh
θ(x(
i))+
(1−y
(i))
log(
1−hθ
(x(i
)))
對θ求偏導數: ∂l
(θ)∂
θj=(
y(i)
g(θt
x)−(
1−y(
i))1
1−g(
θtx)
)⋅∂g
(θtx
)∂θj
=(y(
i)g(
θtx)
−(1−
y(i)
)11−
g(θt
x))⋅
g(θt
x)⋅(
1−g(
θtx)
)⋅∂θ
tx∂θ
j=(y
(i)⋅
(1−g
(θtx
))−(
1−y(
i))⋅
g(θt
x))⋅
xj=(
y(i)
−g(θ
tx))
⋅xj=
(y(i
)−hθ
(x))
⋅xj
有了關於
θ 的梯度表示式,那麼在邏輯回歸中就可以根據梯度下降演算法來更新
θ 的值,因為我們使用極大似然估計來估計θ
,所以從
極大似然
估計的角
度來看,
應用梯度
下降的時
候更新 \theta$的值是沿著似然函式的正梯度上公升的,即logistic的學習規則如下:
\begin \theta_j = \theta_j + \alpha \cdot ((y^ - h_(x))\cdot x_j) \end
機器學習筆記之六 Bagging 簡述
本文結構 bagging bootstrap aggregating 的縮寫。是一種並行式整合學習方法,可用於二分類,多分類,回歸等任務。基本流程 對乙個包含 m 個樣本的資料集,有放回地進行 m 次隨機取樣,這樣得到具有 m 個樣本的取樣集。取 t 個這樣的取樣集。每個取樣集訓練乙個基學習器。結合...
Coursera 機器學習筆記(六)
主要為第八周內容 聚類 clustering 降維 聚類是非監督學習中的重要的一類演算法。相比之前監督學習中的有標籤資料,非監督學習中的是無標籤資料。非監督學習的任務是對這些無標籤資料根據特徵找到內在結構。聚類就是通過演算法把資料分成不同的簇 點集 k均值演算法是其中一種重要的聚類演算法。k均值演算...
Andrew NG機器學習課程筆記(六)
支援向量機 1 1.這一節andrew老師回顧了上一節的樸素貝葉斯,然後提了下神經網路,接著就是重頭戲支援向量機了。支援向量機是一種二分類模型,他的基本模型時定義在特徵空間上的間隔最大的線性分類器,間隔最大使他有別於感知機,支援向量機還包括核技巧,這使他成為實質上的非線性分類器。支援向量機的學習策略...