邏輯回歸(Logistic regression)

2021-09-27 02:42:28 字數 2981 閱讀 6022

實習完回學校,搞完了開題答辯,最近因為找工作需要,開始複習一些演算法方面在筆試面試中會遇到的問題。用部落格記錄,之後要再看的話比較方便。如有錯誤,歡迎指正。

一、邏輯回歸是分類方法。

二、用的是sigmoid啟用函式,特點:

1.將輸入值對映到(0,1)區間。

2.函式影象連續且光滑,嚴格的單調遞增函式,處處可導。

3.在0附近比較敏感。

優點:形式簡單,易使用和解釋,速度快。

缺點:準確率不高(在離0越遠的地方越不敏感,導致對那裡的資料沒有區分度)。收斂慢。

三、正則化

weightdecay的作用是將模型的複雜度降低。

正則化:防止過擬合。保留所有特徵,減小不重要係數所佔的比重。

問的比較多的是l1和l2的區別:

1.l1是模型各個引數的絕對值之和;l2是模型各個引數平方和的開方。

2.l1會趨向於產生少量的特徵,而其他的特徵都是0(稀疏矩陣);l2會選擇更多的特徵,這些特徵都會接近於0。

四、最小二乘法(ordinary least square,ols)

(1)對於函式hθ(

x1,.

..,x

n)=θ

0+θ1

∗x1+

...+

θn∗x

nh_θ(x1,...,xn)=θ_0+θ_1*x_1+...+θ_n*x_n

hθ​(x1

,...

,xn)

=θ0​

+θ1​

∗x1​

+...

+θn​

∗xn​

(2)損失函式j(θ

0,..

.,θn

)=∑j

=1m(

∑i=0

nθix

i(j)

−y(j

))2j(θ_0,...,θ_n)=∑_^(∑_^θ_ix_i^-y^)^2

j(θ0​,

...,

θn​)

=∑j=

1m​(

∑i=0

n​θi

​xi(

j)​−

y(j)

)2(3)損失函式對每個θ

iθ_i

θi​求導,並使之=0

(4)得到(n+1)個方程組,有(n+1)個未知的θ,剛好可以求得

優點:簡潔高效;比梯度下降的迭代法方便很多。

缺點:xtx

x^tx

xtx不可逆時,無法使用;最小二乘法是線性估計,已經預設了是線性的關係,使用有一定侷限性。

五、梯度下降法

將當前的引數值,往梯度的反方向移動。

(1)對於函式hθ(

x1,.

..,x

n)=θ

0+θ1

∗x1+

...+

θn∗x

nh_θ(x1,...,xn)=θ_0+θ_1*x_1+...+θ_n*x_n

hθ​(x1

,...

,xn)

=θ0​

+θ1​

∗x1​

+...

+θn​

∗xn​

(2)損失函式j(θ

0,..

.,θn

)=(1

/2m)

∑j=1

m(∑i

=0nθ

ixi(

j)−y

(j))

2j(θ_0,...,θ_n)=(1/2m)∑_^(∑_^θ_ix_i^-y^)^2

j(θ0​,

...,

θn​)

=(1/

2m)∑

j=1m

​(∑i

=0n​

θi​x

i(j)

​−y(

j))2

(3)對每個θ求偏導。

(4)tem

pi=θ

i−α∗

[αj(

θ0,.

..,θ

n)/α

θi]temp_i=θ_i-α*[αj(θ_0,...,θ_n)/αθ_i]

tempi​

=θi​

−α∗[

αj(θ

0​,.

..,θ

n​)/

αθi​

](i=0,…,n)

(5)θi=

temp

iθ_i=temp_i

θi​=te

mpi​

(i=0,…,n)(注意這裡是用前一輪所有值的來計算這一輪的所有值

5.1 批量梯度下降法(bgd)

每更新乙個引數的時候,要用到所有的樣本數。

優點:迭代次數少,找到的是全域性最優解,易於並行實現。

缺點:當樣本量很大的時候,迭代一次需要很長的時間。

5.2 隨機梯度下降法(sgd)

隨機選擇乙個樣本,通過該樣本來更新所有的引數。

優點:每次更新需要的時間比較短。

缺點:需要很多次迭代才會收斂,找到的不一定是全域性最優。

5.3 小批量梯度下降法(mbgd)

綜合bgd和sgd。每次你選擇d個訓練樣本,使用這d個樣本,更新所有的引數。

α:學習率。過大:跨步大,可能錯過全域性最小點;過小:收斂十分緩慢。

六、欠擬合和過擬合

欠擬合是模型不能很好地擬合訓練資料;過擬合是模型能很好地擬合訓練資料,但是不能很好地擬合測試資料。

奧卡姆剃刀原理:在同樣能夠解釋已知觀測現象的假設中,應當挑選「最簡單」的那乙個。

七、偏差和方差

偏差是**值偏離真實值的誤差期望;方差是資料上任意特定取樣可能導致的估計期望的偏差。

八、控制演算法的效能

一是允許使用的函式種類;二是函式的數量。

機器學習 邏輯回歸 Python實現邏輯回歸

coding utf 8 author 蔚藍的天空tom import numpy as np import os import matplotlib.pyplot as plt from sklearn.datasets import make blobs global variable path...

邏輯回歸模型 SAS邏輯回歸模型訓練

邏輯回歸模型是金融信貸行業製作各類評分卡模型的核心,幾乎80 的機器學習 統計學習模型演算法都是邏輯回歸模型,按照邏輯美國金融公司總結的sas建模過程,大致總結如下 一般通用模型訓練過程 a 按照指定需求和模型要求製作driver資料集,包含欄位有user id,dep b 其中,空值賦預設值即 c...

線性回歸與邏輯回歸

cost functionj 12m i 1m h x i y i hypothesish x tx 梯度下降求解 為了最小化j j j 1m i 1m h x i y i x i j 每一次迭代更新 j j 1m i 1m h x i y i x i j 正規方程求解 最小二乘法 xtx 1x t...