1.3 邏輯回歸損失函式
1.4 優缺點
1. 5 樣本不均衡解決方法
二、正則化與模型評估
2.2 評估指標
2.2.1 混淆矩陣
邏輯回歸於線性回歸實際上有很多相似之處,它們都屬於乙個族群,即廣義線性模型。
這一模型中的形式基本差不多,基於模型中資料的特徵進行建模,所解決的問題均以資料為導向的連續或者分類的結果。邏輯回歸的第一步建立的模型其實就是線性回歸模型,之後在這個基礎上通過乙個sigmoid函式將結果對映到 區間內。
1.2.1 線性回歸
線性回歸解決的是連續值**的問題,利用數理統計中回歸分析,確定兩個或者以上變數間相互依賴的定量關係的一種統計分析方法。
一元線性回歸分析表示式: y = ax + b,只包含乙個因變數和自變數,二者的關係可以近似的用一條直線表示
多元線性回歸分析: h(x) = c1x1 + c2x2 + … + cnxn,包括兩個或以上的因變數,並且因變數和自變數是線性關係。
下圖可展示多元線性回歸在解決問題上面優化的曲線
1.2.2 邏輯回歸
與線性回歸不同的是,邏輯回歸主要解決分類的問題。
舉個例子,惡性腫瘤與良性腫瘤的判斷。假如用線性回歸來解決,那麼這條直線會變成這樣:
在離散點增加的時候,此線就會偏移。
而邏輯回歸作為分類問題如下:
我們可以清晰的從圖中判斷出兩個模型的好壞,明顯在分類問題上邏輯回歸做出的**優於比線性回歸。而這個區別主要是因為在於sigmoid函式,將任意輸入對映到了[0, 1]區間。
1.3.1 定義
邏輯回歸一般使用交叉熵作為損失函式,我們先給出公式:
j (θ
)=−1
m[∑i
=1m(
y(i)
loghθ
(x(i
))+(
1−y(
i))log(
1−hθ
(x(i
)))]
j(\theta) = -\frac[\sum_^ ( \log h_\theta(x^) + (1-y^) \log (1-h_\theta(x^)})]
j(θ)=−
m1[
i=1∑
m(y
(i)loghθ
(x(
i))+
(1−y
(i))
log(1−
hθ(
x(i)
))]首先解釋一下損失函式的定義:
1)假設有訓練樣本(x, y),模型為h, 引數為θ。h(θ) = θtx (θt表示θ的轉置)。簡單來說,任何能夠衡量模型**出來的**值與真實值y之間的差異的函式都可以叫做損失函式,因此得出:
2)當我們確定模型h,那麼要做的事情就是訓練模型引數θ,基於損失函式的存在,我們的過程就是尋找乙個使損失函式j取最小值
3)而在優化過程中,最常用的就是梯度下降法
1.3.2 交叉熵
在邏輯回歸中,最常用的損失函式就是交叉熵。
此處參考:交叉熵詳解
優點:
缺點:正則化懲罰
使用多分類分類器
將不平衡的二分類問題轉換為異常點檢測
改變正負樣本在模型中的權重,相當於對於交叉熵來說,通過修改在某乙個闕值判斷正負樣本在改進模型
對模型進行交叉驗證和對資料進行混淆矩陣對稀有樣本擴充
正則化是結構風險最小化策略的實現,實在經驗風險上加上乙個正則項或懲罰項以避免過擬合。
2.1.1 l1正則化
l1正則化也成為lasso回歸,在原始的損失函式後面加乙個l1正則化項,所有權重w
ww的絕對值之和,乘以λ
n\frac
nλl2正則化也成為權重衰減,是所有引數w
ww的平方的和,除以訓練集樣本大小n
混淆矩陣是監督學習中視覺化工具,用於比較分類結果和例項的真實資訊。表中每一行表示例項的**類別,每一列表示例項的真是類別
真正(true positive , tp):被模型**為正的正樣本。
假正(false positive , fp):被模型**為正的負樣本。
假負(false negative , fn):被模型**為負的正樣本。
真負(true negative , tn):被模型**為負的負樣本。
真正率(true positive rate,tpr):tpr=tp/(tp+fn),即被**為正的正樣本數 /正樣本實際數。
假正率(false positive rate,fpr) :fpr=fp/(fp+tn),即被**為正的負樣本數 /負樣本實際數。
假負率(false negative rate,fnr) :fnr=fn/(tp+fn),即被**為負的正樣本數 /正樣本實際數。
真負率(true negative rate,tnr):tnr=tn/(tn+fp),即被**為負的負樣本數 /負樣本實際數/2
一般而言都是計算準確率來評估指標,更深的目前還接觸不到,就不過多介紹了。
參考的是:模型評估參考
機器學習 GBDT演算法梳理
學習任務 前向分步演算法 負梯度擬合 損失函式 回歸二分類,多分類 正則化優缺點 sklearn引數 應用場景 前言 提公升 boosting 方法是整合學習方法的一種,在分類問題中,它通過改變訓練樣本的權重,學習多個分類器,將弱分類器組裝成乙個強分類器,提高分類的效能。其最具代表性的是adaboo...
機器學習 線性回歸演算法梳理
學習內容 機器學習的一些概念 有監督 無監督 泛化能力 過擬合欠擬合 方差和偏差以及各自解決辦法 交叉驗證 線性回歸的原理 線性回歸損失函式 代價函式 目標函式 優化方法 梯度下降法 牛頓法 擬牛頓法等 線性回歸的評估指標 sklearn引數詳解 1.基本概念 有監督 訓練資料有標記資訊,如分類和回...
機器學習常用演算法原理梳理
adaboost gbdt xgboost lightgbm原理梳理與辨析 首先,這四個演算法都是整合演算法boosting框架下的。根據boosting策略不同可以分為兩大類,adaboost一類,gbdt xgboost lightgbm一類。3 gbdt 4 xgboost 5 lightgb...