線性回歸針對的是連續型的資料型別,對於二分類(取值為0或1)問題當然不適用。數學推導中最常用的思想就是將未知問題轉化為已知的問題來求解。現在我們的問題是如何對資料集進行分類,很自然的就會想到將其與線性回歸模型聯絡起來。簡單的資料預處理一文中提到通過歸一化可以將連續值對映到[0,1]這個區間中,這樣我們就可以通過階躍函式來實現分類,階躍函式如下:
y
=0, & \text \\ 0.5, & \text \\ \tag 1, & \text \end
y=⎩⎪⎨⎪
⎧0,
0.5,
1,z
z = 0
z > 0(
1)即當**值z大於零就判為正例,小於零則判為反例,**值為臨界值零則可以任意判別。
然而,單位階躍函式不連續,因此不能通過求導的方式來求得誤差最小的引數。因此為了實現邏輯回歸,我們找到了對數機率函式(logistic function,也叫邏輯函式)來代替單位階躍函式:
y =1
1+e−
z(2)
y=\frac} \tag
y=1+e−
z1(
2)它將z值轉化為乙個接近0或1的y值。對數機率函式曲線如下圖所示:
雖然它的名字是「回歸」,但實際卻是一種分類學習方法,這種方法有很多優點:
為什麼叫邏輯回歸呢?因為它使用了邏輯函式(logisitic 函式),通過邏輯函式將連續值轉化為可以分類的結果。
根據上面得到的對數機率函式,然後結合線性回歸的知識我們可以推導出邏輯回歸的假設函式。邏輯回歸的假設函式形式如下:
h θ(
x)=1
1+e−
θtx(3)
h_\theta(x) = \frac} \tag
hθ(x)
=1+e
−θtx
1(3
)結合式(1)可知:
z =θ
tx(4)z = \theta^tx \tag
z=θtx(
4)式(4)就是線性回歸的基本方程,其中x是我們的輸入,θ
\theta
θ就是我們要求取的引數。
得到假設函式後,接下來就要考慮如何評價模型的結果,由線性回歸模型很容易的就會想到使用mse(均方誤差)來評價模型的結果,以及使用梯度下降方法來求解最佳的引數θ
\theta
θ《機器學習》周志華
史上最直白的logistic regression教程 之 一
邏輯回歸(logistic regression)(一)
邏輯回歸模型 SAS邏輯回歸模型訓練
邏輯回歸模型是金融信貸行業製作各類評分卡模型的核心,幾乎80 的機器學習 統計學習模型演算法都是邏輯回歸模型,按照邏輯美國金融公司總結的sas建模過程,大致總結如下 一般通用模型訓練過程 a 按照指定需求和模型要求製作driver資料集,包含欄位有user id,dep b 其中,空值賦預設值即 c...
logistic回歸 簡介 邏輯回歸 理論簡介
邏輯回歸logistic regression 分類演算法原理簡介 嗶哩嗶哩 乾杯 bilibili www.bilibili.com 如果某個函式可以用半開區間的指示函式的有限次線性組合來表示,那麼這個函式就是階躍函式。階躍函式是有限段分段常數函式的組合。然而邏輯回歸是乙個概率模型,我們需要的輸出...
線性模型 邏輯回歸
模型原型 class sklearn.linear model.logisticregression penalty l2 dual false,tol 0.0001,c 1.0,fit intercept true,intercept scaling 1,class weight none,ran...