Day2 邏輯回歸演算法梳理

2021-09-14 07:27:34 字數 1802 閱讀 7442

1.邏輯回歸與線性回歸的聯絡與區別

2.邏輯回歸的原理、損失函式推導及優化

3.正則化與模型評估指標

4.邏輯回歸的優缺點

5.樣本不均衡問題解決辦法

聯絡兩者都是通過已知資料和擬合函式來訓練未知引數,使得擬合損失到達最小,然後用所得的擬合函式進行**。

邏輯回歸通過somgid函式,將r範圍內的取值對映到[0,1]上。

區別線性回歸訓練引數方法是最小二乘法,邏輯回歸是最大似然估計。

線性回歸是一種回歸方法,多用來**連續型資料;邏輯回歸是一種分類方法,多用來作二分類判別。

邏輯回歸分線性與非線性,這裡僅談簡單的線性回歸。

**函式構建

z是乙個矩陣,θ是引數列向量(要求解的),x是樣本列向量(給定的資料集)。θ^t表示θ的轉置。g(z)函式實現了任意實數到[0,1]的對映,這樣我們的資料集([x0,x1,…,xn]),不管是大於1或者小於0,都可以對映到[0,1]區間進行分類。hθ(x)給出了輸出為1的概率。比如當hθ(x)=0.7,那麼說明有70%的概率輸出為1。輸出為0的概率是輸出為1的補集,也就是30%。

如果我們有合適的引數列向量θ([θ0,θ1,…θn]^t),以及樣本列向量x([x0,x1,…,xn]),那麼我們對樣本x分類就可以通過上述公式計算出乙個概率,如果這個概率大於0.5,我們就可以說樣本是正樣本,否則樣本是負樣本。

極大似然給估計法構建代價函式

根據sigmoid函式的特性,我們可以做出如下的假設:

式即為在已知樣本x和引數θ的情況下,樣本x屬性正樣本(y=1)和負樣本(y=0)的條件概率。理想狀態下,根據上述公式,求出各個點的概率均為1,也就是完全分類都正確。但是考慮到實際情況,樣本點的概率越接近於1,其分類效果越好。比如乙個樣本屬於正樣本的概率為0.51,那麼我們就可以說明這個樣本屬於正樣本。另乙個樣本屬於正樣本的概率為0.99,那麼我們也可以說明這個樣本屬於正樣本。但是顯然,第二個樣本概率更高,更具說服力。我們可以把上述兩個概率公式合二為一。

代價函式:

所有樣本點,運用極大似然估計,求引數:

取對數,得對數似然函式:

其中,m為樣本的總數,y(i)表示第i個樣本的類別,x(i)表示第i個樣本,需要注意的是θ是多維向量,x(i)也是多維向量。

綜上所述,滿足j(θ)的最大的θ值即是我們需要求解的模型。

梯度上公升優化函式,求引數

迭代函式:

化簡得最後得迭代函式:

使用梯度下降(上公升)求最優解。對應得引數即為訓練模型得引數。

參考文章:深入淺出–梯度下降法及其實現

機器學習實戰教程(六):logistic回歸基礎篇之梯度上公升演算法

當模型得引數過多時,很容易過擬合。這是可以通過控制模型複雜度來優化,可以在優化目標中加入正則項,通過懲罰過大得引數來防止過擬。

待完善。

day2 邏輯回歸演算法梳理

1.邏輯回歸與線性回歸的聯絡與區別 聯絡 邏輯回歸的模型 是乙個非線性模型,sigmoid函式,又稱邏輯回歸函式。但是它本質上又是乙個線性回歸模型,因為除去sigmoid對映函式關係,其他的步驟,演算法都是線性回歸的。可以說,邏輯回歸,都是以線性回歸為理論支援的。區別 使用線性回歸的輸出其值有可能小...

02演算法梳理2 邏輯回歸

2.邏輯回歸的原理 3.邏輯回歸損失函式推導及優化 4.正則化與模型評估方法 5.邏輯回歸優缺點 6.樣本不均衡問題解決方案 7.sklearn引數 兩者都屬與廣義線性回歸模型。通過sigimoid函式,將線性線性轉化成非線性函式。數值越大越趨向於0,越小越趨向於1.在損失函式後加乙個正則化項,酒時...

打卡2 邏輯回歸演算法梳理

logistic回歸與多重線性回歸實際上有很多相同之處,最大的區別就在於它們的因變數不同,其他的基本都差不多。正是因為如此,這兩種回歸可以歸於同乙個家族,即廣義線性模型。但是一般的線性回歸是不應用在分類問題之上的。而邏輯回歸則可以面對乙個回歸或者分類問題,建立代價函式求解出最優的模型引數。而邏輯回歸...