邏輯回歸演算法梳理
1、邏輯回歸與線性回歸的聯絡與區別
區別:邏輯回歸**值返回的離散值,線性回歸返回的連續值
聯絡:2、 邏輯回歸的原理
邏輯回歸就是這樣的乙個過程:面對乙個回歸或者分類問題,建立代價函式,然後通過優化方法迭代求解出最優的模型引數,然後測試驗證我們這個求解的模型的好壞
3、邏輯回歸損失函式推導及優化
4、 正則化與模型評估指標
正則有l1&l2正則,也有綜合l1&l2的elastic
評估指標:
5、邏輯回歸的優缺點
優點:1)速度快,適合二分類問題
2)簡單易於理解,直接看到各個特徵的權重
3)能容易地更新模型吸收新的資料
缺點:對資料和場景的適應能力有侷限性
6、樣本不均衡問題解決辦法
方案1:賦予正負例不同權重係數
方案2:可使用bagging方法,重複有放回抽樣,訓練多個模型,生成乙個強學習器做**
7. sklearn引數
penalty=』l2』, 引數型別:str,可選:『l1』 or 『l2』, 預設: 『l2』。該引數用於確定懲罰項的範數
dual=false, 引數型別:bool,預設:false。雙重或原始公式。使用liblinear優化器,雙重公式僅實現l2懲罰。
tol=0.0001, 引數型別:float,預設:e-4。停止優化的錯誤率
c=1.0, 引數型別:float,預設;1。正則化強度的導數,值越小強度越大。
fit_intercept=true, 引數型別:bool,預設:true。確定是否在目標函式中加入偏置。
intercept_scaling=1, 引數型別:float,預設:1。僅在使用「liblinear」且self.fit_intercept設定為true時有用。
class_weight=none, 引數型別:dict,預設:none。根據字典為每一類給予權重,預設都是1.
random_state=none, 引數型別:int,預設:none。在打亂資料時,選用的隨機種子。
solver=』warn』, 引數型別:str,可選:, 預設:liblinear。選用的優化器。
max_iter=100, 引數型別:int,預設:100。迭代次數。multi_class=』warn』, 引數型別:str,可選:,預設:ovr。如果選擇的選項是』ovr』,
那麼二進位制問題適合每個標籤。對於「多項式」,最小化的損失是整個概率分布中的多項式損失擬合,即使資料是二進位制的。當solver ='liblinear』時,'multinomial』不
可用。如果資料是二進位制的,或者如果solver =『liblinear』,『auto』選擇』ovr』,否則選擇』multinomial』。
verbose=0, 引數型別:int,預設:0。對於liblinear和lbfgs求解器,將詳細設定為任何正數以表示詳細程度。
warm_start=false, 引數型別:bool,預設:false。是否使用之前的優化器繼續優化。
n_jobs=none,引數型別:bool,預設:none。是否多執行緒
邏輯回歸演算法梳理
其原理是將樣本的特徵和樣本發生的概率聯絡起來。優化方法 模型評估指標 在資料極度偏斜的情況下,分類準確度存在問題,比如 癌症,因此只用分類準確度是遠遠不夠的。引入以下指標,優點 缺點 樣本的過取樣和欠取樣 直接基於原始訓練集進行學習,但在用訓練好的分類器進行 時,將y 1 y嵌入到決策過程中,稱為 ...
邏輯回歸演算法梳理
區別 線性回歸主要用來解決連續值 的問題,邏輯回歸用來解決分類的問題,輸出的屬於某個類別的概率。面對乙個回歸或者分類問題,建立代價函式,然後通過優化方法迭代求解出最優的模型引數,然後測試驗證我們這個求解的模型的好壞 正則化方法 正則化是結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或懲罰項。...
邏輯回歸演算法梳理
邏輯回歸和線性回歸的聯絡和區別 邏輯回歸和線性回歸都屬於廣義線性回歸模型。二者的區別如下 1.線性回歸要求變數服從正態分佈,邏輯回歸對變數分布沒有要求。2.線性回歸要求因變數是連續性數值變數,而邏輯回歸要求因變數是分型別變數。3.線性回歸要求自變數和因變數呈線性關係,而邏輯回歸不要求。4.線性回歸直...