day2 邏輯回歸演算法梳理

1.邏輯回歸與線性回歸的聯絡與區別

聯絡：邏輯回歸的模型是乙個非線性模型，sigmoid函式，又稱邏輯回歸函式。但是它本質上又是乙個線性回歸模型，因為除去sigmoid對映函式關係，其他的步驟，演算法都是線性回歸的。可以說，邏輯回歸，都是以線性回歸為理論支援的。

區別：使用線性回歸的輸出其值有可能小於0或者大於1,這是不符合實際情況的，邏輯回歸的輸出正是[0,1]區間。

2.邏輯回歸的原理

面對乙個回歸或者分類問題，建立代價函式，然後通過優化方法迭代求解出最優的模型引數，然後測試驗證我們這個求解的模型的好壞。

logistic回歸雖然名字裡帶「回歸」，但是它實際上是一種分類方法，可能因為邏輯回歸用了和回歸類似的方法來解決了分類問題。

3.邏輯回歸損失函式推導及優化

邏輯回歸公式為：

假設有n個樣本，樣本的標籤只有0和1兩類，可以用極大似然估計法估計模型引數，從而得到邏輯回歸模型

設yi=1的概率為pi，yi=0的概率為1 - pi，那麼觀測的概率為：

概率由邏輯回歸的公式求解，那麼帶進去得到極大似然函式：

取對數後：

4.正則化與模型評估指標

正則有l1&l2正則

評估指標：lambda是正則項係數：

如果它的值很大，說明對模型的複雜度懲罰大，對擬合資料的損失懲罰小，這樣它就不會過分擬合資料，在訓練資料上的偏差較大，在未知資料上的方差較小，但是可能出現欠擬合的現象；

•如果它的值很小，說明比較注重對訓練資料的擬合，在訓練資料上的偏差會小，但是可能會導致過擬合。

5.邏輯回歸的優缺點

優點：1）適合需要得到乙個分類概率的場景。

2）計算代價不高，容易理解實現。

缺點：1）容易欠擬合，分類精度不高。

2）資料特徵有缺失或者特徵空間很大時表現效果並不好。

6.樣本不均衡問題解決辦法

1）產生新資料型：過取樣小樣本(smote)，欠取樣大樣本。

欠取樣大樣本是通過減少多數類樣本的樣本數量來實現樣本均衡。其中比較簡單直接的方法就是隨機去掉一些資料來減少多數類樣本的規模，但這種方法可能會丟失一些重要的資訊。

還有一種方法就是，假設少數類樣本數量為n，那就將多數類樣本分為n個簇，取每個簇的中心點作為多數類的新樣本，再加上少數類的所有樣本進行訓練。這樣就可以保證了多數類樣本在特徵空間的分布特性。

2）對原資料的權值進行改變

通過改變多數類樣本和少數類樣本資料在訓練時的權重來解決樣本不均衡的問題，是指在訓練分類器時，為少數類樣本賦予更大的權值，為多數類樣本賦予較小的權值。

3）通過特徵選擇

在樣本資料較為不均衡，某一類別資料較少的情況下，通常會出現特徵分布很不均衡的情況。例如文字分類中，有大量的特徵可以選擇。因此我們可以選擇具有顯著區分能力的特徵進行訓練，也能在一定程度上提高模型的泛化效果。

7 sklearn引數

penalty=』l2』, 引數型別：str，可選：『l1』 or 『l2』, 預設: 『l2』。該引數用於確定懲罰項的範數

dual=false, 引數型別：bool,預設：false。雙重或原始公式。使用liblinear優化器，雙重公式僅實現l2懲罰。

tol=0.0001, 引數型別：float，預設：e-4。停止優化的錯誤率

c=1.0, 引數型別：float，預設；1。正則化強度的導數，值越小強度越大。

fit_intercept=true, 引數型別：bool，預設：true。確定是否在目標函式中加入偏置。

intercept_scaling=1, 引數型別：float，預設：1。僅在使用「liblinear」且self.fit_intercept設定為true時有用。

class_weight=none, 引數型別：dict，預設：none。根據字典為每一類給予權重，預設都是1.

random_state=none, 引數型別：int，預設：none。在打亂資料時，選用的隨機種子。

solver=』warn』, 引數型別：str，可選：, 預設：liblinear。選用的優化器。

max_iter=100, 引數型別：int，預設：100。迭代次數。multi_class=』warn』, 引數型別：str，可選：，預設：ovr。如果選擇的選項是』ovr』，

那麼二進位制問題適合每個標籤。對於「多項式」，最小化的損失是整個概率分布中的多項式損失擬合，即使資料是二進位制的。當solver 　='liblinear』時，'multinomial』不

可用。如果資料是二進位制的，或者如果solver =『liblinear』，『auto』選擇』ovr』，否則選擇』multinomial』。

verbose=0, 引數型別：int，預設：0。對於liblinear和lbfgs求解器，將詳細設定為任何正數以表示詳細程度。

warm_start=false, 引數型別：bool，預設：false。是否使用之前的優化器繼續優化。

n_jobs=none，引數型別：bool，預設：none。是否多執行緒

day2 邏輯回歸演算法梳理

Day2 邏輯回歸演算法梳理

02演算法梳理2 邏輯回歸

打卡2 邏輯回歸演算法梳理

day2 邏輯回歸演算法梳理

Day2 邏輯回歸演算法梳理

02演算法梳理2 邏輯回歸

打卡2 邏輯回歸演算法梳理

相關推薦