放假這麼久,天天摸魚,已經好久沒更新了,希望後面的更新速度能達到日更吧,這次給大家介紹的是logistic 回歸,雖然是名字帶有回歸,其實是乙個分類演算法。廢話不多說,我們先從例題來引入我們今天的演算法。引論
我們這次不討論房價的問題了,這次我們來討論腫瘤大小判斷腫瘤是否是良性的腫瘤。這是乙個兩項分布問題,輸出的結果只可能是兩個乙個是是另乙個是否。我們可以用0,1來表示輸出的結果。那麼我們如何來區分良性還是惡性腫瘤呢,這就是乙個典型的分類問題,我們也將通過本問題來學習logistic 回歸演算法(雖然這個演算法的名字含有回歸,但是這不是乙個回歸問題而是分類)
假設陳述
但是我們在這裡要把這個函式稍加修改變成h(x) = g((θ^t )*x),而這個g(z) = 1/1+e^-z,這個就是大名鼎鼎的sigmoid函式,作用是使函式的輸出在[0,1]這個範圍。(在以後我們講解神經網路部分中還會提到它),sigmoid函式的影象是這樣的:
這樣我們就可以讓函式的輸出大於0.5的,表示為1,小於0.5的表示為0(反過來也可以),這樣我們就可以不斷的擬合引數θ,使函式的輸出能達到這種分類的效果。
決策界限
假設我們現在有個訓練集,就像上圖所示。我們的假設函式是h(x)=g(θ0 + θ1*x1+θ2*x2),假設我們已經擬合好了引數,引數的最終結果是[-3,1,1]。在sigmoid函式的影象中我們可以看出,當x>0時y>0.5,當x<0時y<0.5。所以當(θ^t )*x>=0時y=1,當(θ^t )*x<0時y=0。也就是-3+x1+x2>=0,化簡我們可以得到x1+x2>3。
這在影象上是什麼意思呢:
我們可以看出我們擬合出來的函式已經把訓練集劃分開來了,x1+x2>3的區域就是函式的上半部分。到這裡我們就明白了logistic 回歸的工作原理,就用擬合的函式來把不同標籤的訓練集分開來達到分類的效果。
對於不同的資料集分布,我們可以選擇相應的函式影象來進行分割,比如這樣的資料集分布,我們可以用圓形的函式來分割:
代價函式
我們可不可以用這個函式來進行梯度下降呢,答案當然是不行的。因為我們在函式中使用了sigmoid函式,這會使我們代價函式的影象呈現這樣的狀態:
這樣就會有很多個區域性最小值,而達不到真正的代價的最小值。這裡我們就引入了新的代價函式來對函式進行目標優化
把代價函式分為兩種情況,一種是y=0一種是y=1的時候,這樣我們可以分開來計算。這兩個對數函式的影象,會使輸出如果偏離1或者0的時候,代價值會爆增。
但代價函式這樣表示太麻煩了,於是我們可以把代價函式簡化到乙個公式裡:
這樣我們就不需要分情況來進行計算了
梯度下降
我們既然得到了代價函式,我們的目標就是讓代價函式最小化,我們就需要用梯度下降來得到這個目標。這裡就和回歸函式的梯度下降方法一樣了,這裡我就不多做介紹,直接給出梯度下降的公式:
多元分類
上面我們提到的都是一分為二的情況,只需要分兩種類別,但是在現實情況中我們可能需要處理的是分更多的類別,所以這個時候我們要怎麼做呢。其實很簡單,我們只需要把乙個類別單獨劃分出來,與剩下的類別劃分。這樣乙個一類別的劃分,找到不用的函式,用多個函式來把各種類別區分出來,就可以了。
後記終於恢復更新了,希望能達到日更吧,不能繼續摸魚了。。。。。
吳恩達機器學習筆記
為了解決實際生活中的問題,我們通常需要乙個數學模型。比如,小明有乙個房子 他想賣掉房子 為了知道房子的 小明收集了該地區近兩年的房屋交易 他發現房屋 與房屋大小呈正相關,所以他畫了了一幅圖 小明的房屋大小用紅色的 代替。可見和小明房屋一樣大小的房子並不存在,而類似的房屋 又有很大差別,如此小明決定用...
吳恩達機器學習筆記
sigmoid啟用函式 0,1 x 0,y 0.5 tanh啟用函式 1,1 x 0,y 0 relu啟用函式 x 0,y 0 x 0,y x sigmoid啟用函式 除了輸出層是乙個二分類問題基本不會用它。tanh啟用函式 tanh是非常優秀的,幾乎適合所有場合。relu啟用函式 最常用的預設函式...
吳恩達機器學習筆記(1)
1 用來進行資料探勘 2 讓機器進行自我學習 3 能對使用者進行個性化定製的應用程式 4 了解人類大腦的執行機制 arthor samuel的定義 是在沒有對機器進行明確的程式設計的情況下讓機器具有自主學習的能力。學習演算法主要分為兩大類,監督學習演算法和非監督學習演算法。監督學習演算法就是明確告訴...