邏輯回歸**
公式推導
邏輯回歸是乙個分類演算法。所以大致步驟如下:
sigmoid函式二分類
對線性函式y=w
x+
by = wx + b
y=wx+b
使用sigmoid函式包裝為σ(y
)\sigma(y)
σ(y)
,輸出[0,
1]
[0,1]
[0,1
]的概率值。大於0.5為正樣本,小於0.5為負樣本。
優點:計算代價不高,易於理解和實現。
缺點:容易欠擬合,分類精度可能不高。
梯度下降求解
損失函式:j(θ
)=−1
m∑i=
1m[y
(i
)log(
p(i)
)+(1
−y(i
))
log(1
−p(i
))
]j(θ)=− \frac\sum_^m[y^\log (p^) + (1 - y^)\log (1-p^)]
j(θ)=−
m1i
=1∑m
[y(
i)log(p(
i))+
(1−y
(i))
log(1−
p(i)
)]不對最小二乘法使用梯度下降原因:最小二乘法為凸函式,若使用梯度下降求解得到的權重值是極小值而不是最小值。
極大似然估計
使用對數似然法原因:1、將乘法運算變為加法運算。2、防止出現浮點數下溢。
共線性問題給邏輯回歸或者線性回歸帶來的影響? 詳細推導
共線性並不影響模型的訓練精度。但是對於泛化精度,由於引數的估計已經不準確,所以泛化誤差要差些
a. 模型缺乏穩定性。樣本的微小擾動都可能帶來引數很大的變化;
b. 引數的標準差偏大,相應的 t 統計量會偏小,這樣容易淘汰一些不應淘汰的解釋變數,使統計檢驗的結果失去可靠性。
c. 難以區分每個解釋變數的單獨影響
邏輯回歸的優缺點
優點:1.模型的可解釋性強,可以通過引數值看到特徵對結果的影響
2.既可以得到分類結果也可以得到類別的概率值
3. 方便調整輸出結果,通過調整閾值的方式
缺點:1.模型的準確性不高
2.資料不平衡時,對正負樣本的區分能力差
3.模型對共線性問題比較敏感:變數共線性時,標準差比較大,模型不太穩定
邏輯回歸中的假設
1.因變數服從伯努利分布。
2.假設樣本為正的概率 p 為乙個 sigmoid 函式。
邏輯回歸與線性回歸的區別
1.線性回歸因變數服從高斯分布, 邏輯回歸要求因變數服從伯努利分布。
2.線性回歸要求因變數是連續性數值變數,而logistic回歸要求因變數是分型別變數。
3.線性回歸要求自變數和因變數呈線性關係,而logistic回歸不要求自變數和因變數呈線性關係
4.logistic回歸是分析因變數取某個值的概率與自變數的關係,而線性回歸是直接分析因變數與自變數的關係
5.線性回歸的損失函式是 square loss, 邏輯回歸的損失函式是 log-loss 檢視不同損失函式定義
邏輯回歸
邏輯回歸 總結
a logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用於資料探勘,疾病自動診斷,經濟 等領域。b 例如,引發疾病的危險因素,並根據危險因素 疾病發生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體徵與生活方式等。c ...
機器學習 邏輯回歸總結
邏輯回歸是乙個分類演算法,它可以處理二元分類以及多元分類。雖然它名字裡面有 回歸 兩個字,卻不是乙個回歸演算法。那為什麼有 回歸 這個誤導性的詞呢?個人認為,雖然邏輯回歸是分類模型,但是它的原理裡面卻殘留著回歸模型的影子。郵件是否是垃圾郵件。細胞是否是癌細胞。我們知道,線性回歸的模型是求出輸出特徵向...
Logistic 回歸總結
logistic regression 和 linear regression 的原理是相似的 1.找乙個合適的 函式 andrew ng 的公開課中稱為 hypothesis 一般表示為 h 函式,該函式就是我們需要找的分類函式,它用來 輸入資料的判斷結果。這個過程時非常關鍵的,需要對資料有一定的...