二. 代價函式求解
三. sklearn 引數說明
四. 常見問題
參考lr 是一種簡單、高效的常用分類模型,能處理二分類或者多分類。
sigmoid 函式:
對線性回歸的結果做乙個在函式g上的轉換,可以變化為邏輯回歸,這個函式g在邏輯回歸中我們一般取為sigmoid函式,形式如下:
g (z
)=11
+e−z
g(z)=\frac}
g(z)=1
+e−z
1另外 這個函式有兩個很好的特性:
(1)z 趨於正無窮時,g(z)->1, z 趨於負無窮時, g(z) ->0; 在二維座標中展現成:
== 邏輯回歸一般模型:==
如果我們令g(z)中的z為:z=xθ,這樣就得到了二元邏輯回歸模型的一般形式:
h (x
θ)=1
1+e−
xθh(x\theta) =\frac}
h(xθ)=
1+e−
xθ1
其中x為樣本輸入,hθ(x)為模型輸出,可以理解為某一分類的概率大小。而θ為分類模型的要求出的模型引數。對於模型輸出hθ(x),我們讓它和我們的二元樣本輸出y(假設為0和1)有這樣的對應關係,如果hθ(x)>0.5 ,即xθ>0, 則y為1。如果hθ(x)<0.5,即xθ<0,
由於線性回歸是連續的,所以可以使用模型誤差的的平方和來定義損失函式,但是邏輯回歸不是連續的,自然線性回歸損失函式定義的經驗就用不上了。不過我們可以用最大似然法來推導出我們的損失函式:
(1) y 的概率分布函式表示式:
p (y
=1∣x
,θ)=
hθ(x
)p(y=1|x,\theta) = h_\theta(x)
p(y=1∣
x,θ)
=hθ
(x)p(y
=0∣x
,θ)=
1−hθ
(x)p(y=0|x,\theta) = 1-h_\theta(x)
p(y=0∣
x,θ)
=1−h
θ(x
)(2) 根據概率分布函式,我們就可以用似然函式最大化來求解我們需要的模型係數θ; 使得給定的輸入x, 輸出的y 的概率最大。最大似然函式:
l (θ
)=∏i
=1m(
hθ(x
(i))
)y(i
)(1−
hθ(x
(i))
)1−y
(i)l(\theta)=\prod_^(h_\theta(x^))y^(1-h_\theta(x^))^}
l(θ)=i
=1∏m
(hθ
(x(
i)))
y(i)
(1−h
θ(x
(i))
)1−y
(i)(3) 代價函式表示式:
詳細引數說明
這裡對 ovo,ovr ,mvm 進行補充說明:
ovr 是將乙個類的樣例作為正例,所有其他類的樣例作為返利來訓練n個分類器。在測試的時候弱僅有乙個分類器**為正類,則對應的類別標記作為最終分類結果,如果有多個分類器**為正類,通常考慮各個分類器的置信度。
ovr相對簡單,但分類效果相對略差(這裡指大多數樣本分佈情況,某些樣本分佈下ovr可能更好)。而mvm分類相對精確,但是分類速度沒有ovr快
共線性問題給邏輯回歸或者線性回歸帶來的影響? 詳細推導
共線性並不影響模型的訓練精度。但是對於泛化精度,由於引數的估計已經不準確,所以泛化誤差要差些
a. 模型缺乏穩定性。樣本的微小擾動都可能帶來引數很大的變化;
b. 引數的標準差偏大,相應的 t 統計量會偏小,這樣容易淘汰一些不應淘汰的解釋變數,使統計檢驗的結果失去可靠性。
c. 難以區分每個解釋變數的單獨影響
邏輯回歸的優缺點?
優點:1.模型的可解釋性強,可以通過引數值看到特徵對結果的影響
2.既可以得到分類結果也可以得到類別的概率值
3. 方便調整輸出結果,通過調整閾值的方式
缺點:1.模型的準確性不高
2.資料不平衡時,對正負樣本的區分能力差
3.模型對共線性問題比較敏感:變數共線性時,標準差比較大,模型不太穩定
邏輯回歸中的假設?
1.因變數服從伯努利分布。
2.假設樣本為正的概率 p 為乙個 sigmoid 函式。
邏輯回歸與線性回歸的區別?
1.線性回歸因變數服從高斯分布, 邏輯回歸要求因變數服從伯努利分布。
2.線性回歸要求因變數是連續性數值變數,而logistic回歸要求因變數是分型別變數。
3.線性回歸要求自變數和因變數呈線性關係,而logistic回歸不要求自變數和因變數呈線性關係
4.logistic回歸是分析因變數取某個值的概率與自變數的關係,而線性回歸是直接分析因變數與自變數的關係
5.線性回歸的損失函式是 square loss, 邏輯回歸的損失函式是 log-loss 檢視不同損失函式定義
1.吳恩達機器學習
2.邏輯回歸
3.線性回歸和邏輯回歸的整理
4.李燁-機器學習極簡入門課
5.共線性問題
機器學習演算法之邏輯回歸
本部分將講解機器學習演算法中最為常用的邏輯回歸演算法,該演算法的講解主要來自於andrewng deeplearning.ai中部分課程的知識結合書籍中部分數學理論知識,將以較為易懂並部分深入的講解,講解中存在大量手寫體的公式及推導。邏輯回歸演算法中有幾個基本點需要知道 首先了解下二分類演算法需要解...
機器學習 邏輯回歸
邏輯回歸 線性回歸的式子,作為邏輯回歸的輸入 適用場景 二分類 線性回歸的輸入 sigmoid函式 分類 0,1 概率值 計算公式 當目標值為1時 損失函式的變化 當目標值為0時 損失函式的變化 下面用乙個例項來說明邏輯回歸的用法 癌症概率 部分資料的截圖如下 資料描述 699條樣本,供11列資料,...
機器學習 邏輯回歸
coding utf 8 import pandas as pd import seaborn as sns from sklearn.model selection import train test split import matplotlib.pyplot as plt 用於畫圖 from ...