任務二 邏輯回歸演算法梳理

2021-09-11 19:54:33 字數 1685 閱讀 7465

1、邏輯回歸與線性回歸的聯絡與區別

參考部落格:

2、邏輯回歸的原理

如果線性回歸的結果輸出是乙個連續值,而值得範圍是無法限定的,那我們沒有辦法把這個結果值對映為可以幫助我們判斷的結果,如果輸出結果是(0,1)的乙個概率值,就可以很容易判斷結果。邏輯回歸正是利用了這樣乙個函式——sigmoid函式:

其影象如下:

參考部落格:

3、邏輯回歸損失函式推導及優化

1)構造**函式h(x)

logistic函式(或稱為sigmoid函式),函式形式為

對於線性邊界的情況,邊界形式如下:

其中,訓練資料為向量

最佳引數

構造的**函式為:

函式h(x)的值有特殊含義,它表示結果取1的概率,因此對於輸入x分類結果為類別1和類別0的概率分別為:

2) 構造損失函式j(m個樣本,每個樣本具有n個特徵)

cost函式和j函式如下,它們是基於最大似然估計推導得到的。

2)損失函式詳細推導過程

求代價函式:

概率綜合起來寫成:

取似然函式為:

對數似然函式為:

參考部落格:

4、正則化與模型評估指標

1)正則化

正則化使結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或懲罰項。正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則化項就越大。

正則化可以取不同的形式,在回歸問題中取平方損失,就是引數的l2範數,也可以取l1範數。取平方損失時,模型的損失函式變為:

lambda是正則項係數:

·如果它的值很大,說明對模型的複雜度懲罰大,對擬合資料的損失大,在未知資料上的方差較小,但是可能出現欠擬合的現象;

·如果它的值很小,說明比較注重對訓練資料的擬合,在訓練資料上的偏差會小,但是可能導致過擬合。

參考部落格:

邏輯回歸模型評估指標

回歸模型評估有三種方法,分別是:平均絕對值誤差、均方誤差和r平方值,如表1所示:

參考部落格:

5、邏輯回歸的優缺點

優點:1)速度快,適合二分類問題;

2)簡單易於理解,直接看到各個特徵的權重;

3)能容易地更新模型吸收新的資料。

缺點:1)容易過擬合,一般準確度不太高;

2)只能處理兩分類問題(在此基礎上衍生出來的softmax可以用於多分類),且必須線性可分。

參考部落格:

6、樣本不均衡問題解決辦法

參考部落格:

7、sklearn引數

參考部落格:

邏輯回歸演算法梳理

邏輯回歸演算法梳理 1 邏輯回歸與線性回歸的聯絡與區別 區別 邏輯回歸 值返回的離散值,線性回歸返回的連續值 聯絡 2 邏輯回歸的原理 邏輯回歸就是這樣的乙個過程 面對乙個回歸或者分類問題,建立代價函式,然後通過優化方法迭代求解出最優的模型引數,然後測試驗證我們這個求解的模型的好壞 3 邏輯回歸損失...

邏輯回歸演算法梳理

其原理是將樣本的特徵和樣本發生的概率聯絡起來。優化方法 模型評估指標 在資料極度偏斜的情況下,分類準確度存在問題,比如 癌症,因此只用分類準確度是遠遠不夠的。引入以下指標,優點 缺點 樣本的過取樣和欠取樣 直接基於原始訓練集進行學習,但在用訓練好的分類器進行 時,將y 1 y嵌入到決策過程中,稱為 ...

邏輯回歸演算法梳理

區別 線性回歸主要用來解決連續值 的問題,邏輯回歸用來解決分類的問題,輸出的屬於某個類別的概率。面對乙個回歸或者分類問題,建立代價函式,然後通過優化方法迭代求解出最優的模型引數,然後測試驗證我們這個求解的模型的好壞 正則化方法 正則化是結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或懲罰項。...