sklearn邏輯回歸

2021-08-13 10:26:07 字數 949 閱讀 6998

邏輯回歸自己的理解

1.對機器學習的認識

引用大牛的觀點:

機器學習演算法沒有所謂的優劣,也沒有絕對的高效能,只有在特定場景、資料和特徵下更適合的機器學習演算法。

2.機器學習應用方法:

應用機器學習,千萬不要一上來就試圖做到完美,先做乙個基本的model出來,再進行後續的分析步驟,一步步提高。所謂後續步驟可能包括『分析model現在的狀態(欠/過擬合),分析我們使用的feature的作用大小,進行feature selection,以及我們模型下的bad case和產生的原因』等等

還有以下重要的經驗

『對資料的認識太重要了!』

『資料中的特殊點/離群點的分析和處理太重要了!』

『特徵工程(feature engineering)太重要了!在很多kaggle的場景下,甚至比model本身還要重要』

『要做模型融合(model ensemble)!』

通常遇到缺值的情況,我們會有幾種常見的處理方式:

如果缺值的樣本佔總數比例極高,我們可能就直接捨棄了,作為特徵加入的話,可能反倒帶入noise,影響最後的結果了

如果缺值的樣本適中,而該屬性非連續值特徵屬性(比如說類目屬性),那就把nan作為乙個新類別,加到類別特徵中

如果缺值的樣本適中,而該屬性為連續值特徵屬性,有時候我們會考慮給定乙個step(比如這裡的age,我們可以考慮每隔2/3歲為乙個步長),然後把它離散化,之後把nan作為乙個type加到屬性類目中。

有些情況下,缺失的值個數並不是特別多,那我們也可以試著根據已有的值,擬合一下資料,補充上。

1.2.例項 )

3.斯坦福 理論)

4.演算法的評估方法 )

5.另乙個例項**)

6.缺失值補充)

7.畫圖)

8.畫圖seaborn簡介和例項)

sklearn之邏輯回歸

邏輯回歸 import numpy as np import matplotlib.pyplot as plt from sklearn.metrics import classification report 評估分類結果的指標 from sklearn import preprocessing ...

sklearn實現邏輯回歸

首先我們來看下面一組資料集 前面的x1與x2都表示的是年收入和年齡這兩個因素決定的是否買車的結果。開始 部分,我們先輸入x和y的變數,開始輸入資料 from sklearn import linear model x 20,3 23,7 31,10 42,13 50,7 60,5 y 0,1,1,1...

sklearn調包俠之邏輯回歸

傳送門 機器學習實戰之logistic回歸 正則化這裡補充下正則化的知識。當乙個模型太複雜時,就容易過擬合,解決的辦法是減少輸入特徵的個數,或者獲取更多的訓練樣本。正則化也是用來解決模型過擬合的一種方法。常用的有l1和l2範數做為正則化項。資料匯入 本次實戰依舊是使用sklearn中的資料集,如圖所...