機器學習演算法 邏輯回歸

2021-08-28 23:05:36 字數 3306 閱讀 7574

二. 代價函式求解

三. sklearn 引數說明

四. 常見問題

參考lr 是一種簡單、高效的常用分類模型,能處理二分類或者多分類。

sigmoid 函式:

對線性回歸的結果做乙個在函式g上的轉換,可以變化為邏輯回歸,這個函式g在邏輯回歸中我們一般取為sigmoid函式,形式如下:

g (z

)=11

+e−z

g(z)=\frac}

g(z)=1

+e−z

1​另外 這個函式有兩個很好的特性:

(1)z 趨於正無窮時,g(z)->1, z 趨於負無窮時, g(z) ->0; 在二維座標中展現成:

== 邏輯回歸一般模型:==

如果我們令g(z)中的z為:z=xθ,這樣就得到了二元邏輯回歸模型的一般形式:

h (x

θ)=1

1+e−

xθh(x\theta) =\frac}

h(xθ)=

1+e−

xθ1​

其中x為樣本輸入,hθ(x)為模型輸出,可以理解為某一分類的概率大小。而θ為分類模型的要求出的模型引數。對於模型輸出hθ(x),我們讓它和我們的二元樣本輸出y(假設為0和1)有這樣的對應關係,如果hθ(x)>0.5 ,即xθ>0, 則y為1。如果hθ(x)<0.5,即xθ<0,

由於線性回歸是連續的,所以可以使用模型誤差的的平方和來定義損失函式,但是邏輯回歸不是連續的,自然線性回歸損失函式定義的經驗就用不上了。不過我們可以用最大似然法來推導出我們的損失函式:

(1) y 的概率分布函式表示式:

p (y

=1∣x

,θ)=

hθ(x

)p(y=1|x,\theta) = h_\theta(x)

p(y=1∣

x,θ)

=hθ​

(x)p(y

=0∣x

,θ)=

1−hθ

(x)p(y=0|x,\theta) = 1-h_\theta(x)

p(y=0∣

x,θ)

=1−h

θ​(x

)(2) 根據概率分布函式,我們就可以用似然函式最大化來求解我們需要的模型係數θ; 使得給定的輸入x, 輸出的y 的概率最大。最大似然函式:

l (θ

)=∏i

=1m(

hθ(x

(i))

)y(i

)(1−

hθ(x

(i))

)1−y

(i)l(\theta)=\prod_^(h_\theta(x^))y^(1-h_\theta(x^))^}

l(θ)=i

=1∏m

​(hθ

​(x(

i)))

y(i)

(1−h

θ​(x

(i))

)1−y

(i)(3) 代價函式表示式:

詳細引數說明

這裡對 ovo,ovr ,mvm 進行補充說明:

ovr 是將乙個類的樣例作為正例,所有其他類的樣例作為返利來訓練n個分類器。在測試的時候弱僅有乙個分類器**為正類,則對應的類別標記作為最終分類結果,如果有多個分類器**為正類,通常考慮各個分類器的置信度。

ovr相對簡單,但分類效果相對略差(這裡指大多數樣本分佈情況,某些樣本分佈下ovr可能更好)。而mvm分類相對精確,但是分類速度沒有ovr快

共線性問題給邏輯回歸或者線性回歸帶來的影響? 詳細推導

共線性並不影響模型的訓練精度。但是對於泛化精度,由於引數的估計已經不準確,所以泛化誤差要差些

a. 模型缺乏穩定性。樣本的微小擾動都可能帶來引數很大的變化;

b. 引數的標準差偏大,相應的 t 統計量會偏小,這樣容易淘汰一些不應淘汰的解釋變數,使統計檢驗的結果失去可靠性。

c. 難以區分每個解釋變數的單獨影響

邏輯回歸的優缺點?

優點:1.模型的可解釋性強,可以通過引數值看到特徵對結果的影響

2.既可以得到分類結果也可以得到類別的概率值

3. 方便調整輸出結果,通過調整閾值的方式

缺點:1.模型的準確性不高

2.資料不平衡時,對正負樣本的區分能力差

3.模型對共線性問題比較敏感:變數共線性時,標準差比較大,模型不太穩定

邏輯回歸中的假設?

1.因變數服從伯努利分布。

2.假設樣本為正的概率 p 為乙個 sigmoid 函式。

邏輯回歸與線性回歸的區別?

1.線性回歸因變數服從高斯分布, 邏輯回歸要求因變數服從伯努利分布。

2.線性回歸要求因變數是連續性數值變數,而logistic回歸要求因變數是分型別變數。

3.線性回歸要求自變數和因變數呈線性關係,而logistic回歸不要求自變數和因變數呈線性關係

4.logistic回歸是分析因變數取某個值的概率與自變數的關係,而線性回歸是直接分析因變數與自變數的關係

5.線性回歸的損失函式是 square loss, 邏輯回歸的損失函式是 log-loss 檢視不同損失函式定義

1.吳恩達機器學習

2.邏輯回歸

3.線性回歸和邏輯回歸的整理

4.李燁-機器學習極簡入門課

5.共線性問題

機器學習演算法之邏輯回歸

本部分將講解機器學習演算法中最為常用的邏輯回歸演算法,該演算法的講解主要來自於andrewng deeplearning.ai中部分課程的知識結合書籍中部分數學理論知識,將以較為易懂並部分深入的講解,講解中存在大量手寫體的公式及推導。邏輯回歸演算法中有幾個基本點需要知道 首先了解下二分類演算法需要解...

機器學習 邏輯回歸

邏輯回歸 線性回歸的式子,作為邏輯回歸的輸入 適用場景 二分類 線性回歸的輸入 sigmoid函式 分類 0,1 概率值 計算公式 當目標值為1時 損失函式的變化 當目標值為0時 損失函式的變化 下面用乙個例項來說明邏輯回歸的用法 癌症概率 部分資料的截圖如下 資料描述 699條樣本,供11列資料,...

機器學習 邏輯回歸

coding utf 8 import pandas as pd import seaborn as sns from sklearn.model selection import train test split import matplotlib.pyplot as plt 用於畫圖 from ...