邏輯回歸自己的理解
1.對機器學習的認識
引用大牛的觀點:
機器學習演算法沒有所謂的優劣,也沒有絕對的高效能,只有在特定場景、資料和特徵下更適合的機器學習演算法。
2.機器學習應用方法:
應用機器學習,千萬不要一上來就試圖做到完美,先做乙個基本的model出來,再進行後續的分析步驟,一步步提高。所謂後續步驟可能包括『分析model現在的狀態(欠/過擬合),分析我們使用的feature的作用大小,進行feature selection,以及我們模型下的bad case和產生的原因』等等
還有以下重要的經驗:
『對資料的認識太重要了!』
『資料中的特殊點/離群點的分析和處理太重要了!』
『特徵工程(feature engineering)太重要了!在很多kaggle的場景下,甚至比model本身還要重要』
『要做模型融合(model ensemble)!』
通常遇到缺值的情況,我們會有幾種常見的處理方式:
如果缺值的樣本佔總數比例極高,我們可能就直接捨棄了,作為特徵加入的話,可能反倒帶入noise,影響最後的結果了
如果缺值的樣本適中,而該屬性非連續值特徵屬性(比如說類目屬性),那就把nan作為乙個新類別,加到類別特徵中
如果缺值的樣本適中,而該屬性為連續值特徵屬性,有時候我們會考慮給定乙個step(比如這裡的age,我們可以考慮每隔2/3歲為乙個步長),然後把它離散化,之後把nan作為乙個type加到屬性類目中。
有些情況下,缺失的值個數並不是特別多,那我們也可以試著根據已有的值,擬合一下資料,補充上。
1.2.例項 )
3.斯坦福 理論)
4.演算法的評估方法 )
5.另乙個例項**)
6.缺失值補充)
7.畫圖)
8.畫圖seaborn簡介和例項)
sklearn之邏輯回歸
邏輯回歸 import numpy as np import matplotlib.pyplot as plt from sklearn.metrics import classification report 評估分類結果的指標 from sklearn import preprocessing ...
sklearn實現邏輯回歸
首先我們來看下面一組資料集 前面的x1與x2都表示的是年收入和年齡這兩個因素決定的是否買車的結果。開始 部分,我們先輸入x和y的變數,開始輸入資料 from sklearn import linear model x 20,3 23,7 31,10 42,13 50,7 60,5 y 0,1,1,1...
sklearn調包俠之邏輯回歸
傳送門 機器學習實戰之logistic回歸 正則化這裡補充下正則化的知識。當乙個模型太複雜時,就容易過擬合,解決的辦法是減少輸入特徵的個數,或者獲取更多的訓練樣本。正則化也是用來解決模型過擬合的一種方法。常用的有l1和l2範數做為正則化項。資料匯入 本次實戰依舊是使用sklearn中的資料集,如圖所...