logistic regression 和 linear regression 的原理是相似的:
1. 找乙個合適的**函式
(andrew ng 的公開課中稱為 hypothesis),一般表示為 h 函式,該函式就是我們需要找的分類函式,它用來**輸入資料的判斷結果。這個過程時非常關鍵的,需要對資料有一定的了解或分析,知道或者猜測**函式的「大概」形式,比如是線性函式還是非線性函式。
2. 構造乙個 cost 函式(損失函式),該函式表示**的輸出( h )與訓練資料類別( y )之間的偏差,可以是二者之間的差( h- y )或者是其他的形式。綜合考慮所有訓練資料的「損失」,將 cost 求和或者求平均,記為j(θ) 函式,表示所有訓練資料**值與實際類別的偏差。
3. 顯然, j(
θ) 函式的值越小表示**函式越準確(即 h 函式越準確),所以這一步需要做的是找到j(
θ) 函式的最小值。找函式的最小值有不同的方法,logistic regression 實現時有的是梯度下降法(gradient descent)。
構造**函式:
logistic regression 雖然名字裡帶「回歸」,但是它實際上是一種分類方法,
用於兩分類問題(即輸出只有兩種)。根據第二章中的步驟,需要先找到一
個**函式( h ),顯然,該函式的輸出必須是兩個值(分別代表兩個類別),所以利用了 logistic 函式(或稱為 sigmoid 函式)
對應的函式影象是乙個取值在 0 和 1 之間的 s 型曲線(圖 1)
接下來需要確定資料劃分的邊界型別,對於圖 2 和圖 3 中的兩種資料分布,顯然圖 2 需要乙個線性的邊界,而圖 3 需要乙個非線性的邊界。接下來我們只討論線性邊界的情況。
這是我們要學習的第乙個
分類演算法。之前的回歸問題嘗試**的變數
y是連續變數,在這個分類演算法中,變數y是離散的,y只取
兩個值。
若y取值,首先改變假設的形式,使假設得到的值總在[0,1]之間,即:
所以,選取如下函式:
總結:logistic函式應用與(xi,yi)的分類問題,yi的取值是離散的,對於二元分類問題,yi只能去.思路,先利用
線性回歸總結
回歸模型的最終目標是建立自變數x和y之間的關係。線性回歸採用乙個高維的線性函式來盡可能的擬合所有的資料點,最簡單的想法就是根據中心極限定理,最小化函式值與真實值誤差的平方 概率解釋 高斯分布加最大似然估計 線性回歸假設誤差服從正太分布,值y也服從正太分布。對數似然函式求最大值即為即均方誤差,因此用這...
邏輯回歸 總結
a logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用於資料探勘,疾病自動診斷,經濟 等領域。b 例如,引發疾病的危險因素,並根據危險因素 疾病發生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體徵與生活方式等。c ...
logistic回歸 logistic回歸
logistic回歸 logistic回歸分析可用於估計某個事件發生的可能性,這是乙個分類模型而不是乙個回歸模型!它的基本思想是利用一條直線將平面上的點分為兩個部分,即兩個類別,要解決的問題就是如何擬合出這條直線,這個擬合的過程就稱之為 回歸 logistic模型 假設你有乙個需要 的內容,要通過三...