知識點總結 Logistic回歸和正則化

1.線性模型家族中比較著名的就是logistic回歸，和線性回歸有什麼關係？

logistic回歸處理的是分類問題，而線性回歸處理的是回歸問題，這是最本質的區別。在logistic回歸中，因變數取值是乙個二元分布，模型學習得出的是e(y

∣x;θ

)e(y|x;\theta)

e(y∣x;

θ),即給定自變數和超引數之後，得到因變數的期望，並基於此期望來處理**分類問題。

目標函式：最大化條件概率

m ax

∑log

p(y∣

x;θ)

max \sum_{}logp(y|x;\theta)

max∑l

ogp(

y∣x;

θ)而這裡的條件概率p剛好是我們的將給定輸入的x**為正樣本與負樣本的概率，p=p

(y=1

∣x;θ

)p=p(y=1|x;\theta)

p=p(y=

1∣x;

θ),那麼1-p就是y=0的時候。

如果把乙個事件發生的概率與改時間不發生的概率的比值p1−

p\frac

1−pp

,那麼邏輯回歸可以看做是對於「y=1|x」這一事件的對數機率的線性回歸。

在logistic中，我們認為y是因變數而不是p1−

p\frac

1−pp

，這就有了和線性回歸的最大差別，邏輯回歸的因變數為離散的，而linear的因變數是連續的。並且在自變數x與超引數θ

\theta

θ確定的情況下，logistic可以看做是廣義線性模型在因變數y服從二元分布時的乙個特殊情況；而是用最小二乘法求解線性回歸時，認為因變數y服從正態分佈。

當然兩者也有相同之處，我們認為兩者都使用了極大似然估計來對訓練樣本進行建模。linear使用最小二乘法，實際上就是在自變數x與超引數θ

\theta

θ確定，y服從正態分佈下，使用極大似然估計的乙個化簡。而邏輯回歸中通過對似然函式l(θ

)=∏i

=1np

(yi∣

xi;θ

)=∏i

=1n(

π(xi

))yi

(1−π

(xi)

)1−y

il(\theta)=\prod_^p(yi|xi;\theta)=\prod_^(\pi(x_i))^(1-\pi(x_i))^

l(θ)=∏

i=1n

p(y

i∣xi

;θ)=

∏i=1

n(π

(xi

))yi

(1−

π(xi

))1

−yi

的學習，通過sigmoid乙個求導的好的性質，通過梯度下降演算法求解出最佳的引數θ

\theta

θ。監督學習常見的相似之處就是運用梯度下降方法。

2.優化演算法：牛頓法

3.正則化

lr很容易產生過擬合，特別是當資料稀疏或者高維(維度高，特徵值多，目的是減少特徵值的作用)，減少過擬合的乙個方法就是正則化，就是在目標函式中加入乙個懲罰函式。

l0正則化

稀疏的引數可以防止過擬合，因此用l0範數（非零引數的個數）來做正則化項是可以防止過擬合的。

從直觀上看，利用非零引數的個數，可以很好的來選擇特徵，實現特徵稀疏的效果，具體操作時選擇引數非零的特徵即可。但因為l0正則化很難求解，是個np難問題，因此一般採用l1正則化。l1正則化是l0正則化的最優凸近似，比l0容易求解，並且也可以實現稀疏的效果。

那麼l1正則化，叫做lasso回歸，1範數；l2正則化，叫嶺回歸，二範數

那麼他們的區別？

l1l2

1範數，lasso

2範數，ridge

無解析解(效率低，沒有具體公式，要用梯度下降)

有解析解

計算效率低

計算效率高

稀疏性強，就是特徵分散性強，有的特徵不起作用，可以捨去，所以l1的特徵選擇性強，

l2稀疏性弱，所以特徵選擇性弱

可以用乙個圖表示，絕對值正方形

圓形表示，因為是平方

總結：l1會趨向於產生少量的特徵，而其他的特徵都是0，而l2會選擇更多的特徵，這些特徵都會接近於0。lasso在特徵選擇時候非常有用，而ridge就只是一種規則化而已。在所有特徵中只有少數特徵起重要作用的情況下，選擇lasso比較合適，因為它能自動選擇特徵。而如果所有特徵中，大部分特徵都能起作用，而且起的作用很平均，那麼使用ridge也許更合適。

4.優點：

5.缺點：

知識點總結 Logistic回歸和正則化

Logistic 回歸總結

知識點總結

知識點總結

相關推薦