吳恩達機器學習筆記（3） Logistic 回歸

放假這麼久，天天摸魚，已經好久沒更新了，希望後面的更新速度能達到日更吧，這次給大家介紹的是logistic 回歸，雖然是名字帶有回歸，其實是乙個分類演算法。廢話不多說，我們先從例題來引入我們今天的演算法。

引論

我們這次不討論房價的問題了，這次我們來討論腫瘤大小判斷腫瘤是否是良性的腫瘤。這是乙個兩項分布問題，輸出的結果只可能是兩個乙個是是另乙個是否。我們可以用0,1來表示輸出的結果。那麼我們如何來區分良性還是惡性腫瘤呢，這就是乙個典型的分類問題，我們也將通過本問題來學習logistic 回歸演算法（雖然這個演算法的名字含有回歸，但是這不是乙個回歸問題而是分類）

假設陳述

但是我們在這裡要把這個函式稍加修改變成h(x) = g((θ^t )*x)，而這個g(z) = 1/1+e^-z,這個就是大名鼎鼎的sigmoid函式，作用是使函式的輸出在[0,1]這個範圍。（在以後我們講解神經網路部分中還會提到它），sigmoid函式的影象是這樣的：

這樣我們就可以讓函式的輸出大於0.5的，表示為1，小於0.5的表示為0（反過來也可以），這樣我們就可以不斷的擬合引數θ，使函式的輸出能達到這種分類的效果。

決策界限

假設我們現在有個訓練集，就像上圖所示。我們的假設函式是h(x)=g(θ0 + θ1*x1+θ2*x2)，假設我們已經擬合好了引數，引數的最終結果是[-3,1,1]。在sigmoid函式的影象中我們可以看出，當x>0時y>0.5,當x<0時y<0.5。所以當(θ^t )*x>=0時y=1,當(θ^t )*x<0時y=0。也就是-3+x1+x2>=0，化簡我們可以得到x1+x2>3。

這在影象上是什麼意思呢：

我們可以看出我們擬合出來的函式已經把訓練集劃分開來了，x1+x2>3的區域就是函式的上半部分。到這裡我們就明白了logistic 回歸的工作原理，就用擬合的函式來把不同標籤的訓練集分開來達到分類的效果。

對於不同的資料集分布，我們可以選擇相應的函式影象來進行分割，比如這樣的資料集分布，我們可以用圓形的函式來分割：

代價函式

我們可不可以用這個函式來進行梯度下降呢，答案當然是不行的。因為我們在函式中使用了sigmoid函式，這會使我們代價函式的影象呈現這樣的狀態：

這樣就會有很多個區域性最小值，而達不到真正的代價的最小值。這裡我們就引入了新的代價函式來對函式進行目標優化

把代價函式分為兩種情況，一種是y=0一種是y=1的時候，這樣我們可以分開來計算。這兩個對數函式的影象，會使輸出如果偏離1或者0的時候，代價值會爆增。

但代價函式這樣表示太麻煩了，於是我們可以把代價函式簡化到乙個公式裡：

這樣我們就不需要分情況來進行計算了

梯度下降

我們既然得到了代價函式，我們的目標就是讓代價函式最小化，我們就需要用梯度下降來得到這個目標。這裡就和回歸函式的梯度下降方法一樣了，這裡我就不多做介紹，直接給出梯度下降的公式：

多元分類

上面我們提到的都是一分為二的情況，只需要分兩種類別，但是在現實情況中我們可能需要處理的是分更多的類別，所以這個時候我們要怎麼做呢。其實很簡單，我們只需要把乙個類別單獨劃分出來，與剩下的類別劃分。這樣乙個一類別的劃分，找到不用的函式，用多個函式來把各種類別區分出來，就可以了。

後記終於恢復更新了，希望能達到日更吧，不能繼續摸魚了。。。。。

吳恩達機器學習筆記（3） Logistic 回歸

吳恩達機器學習筆記

吳恩達機器學習筆記

吳恩達機器學習筆記（1）

相關推薦