機器學習基礎演算法梳理 2

2021-09-14 05:11:47 字數 2760 閱讀 2373

1.3 邏輯回歸損失函式

1.4 優缺點

1. 5 樣本不均衡解決方法

二、正則化與模型評估

2.2 評估指標

2.2.1 混淆矩陣

邏輯回歸於線性回歸實際上有很多相似之處,它們都屬於乙個族群,即廣義線性模型。

這一模型中的形式基本差不多,基於模型中資料的特徵進行建模,所解決的問題均以資料為導向的連續或者分類的結果。邏輯回歸的第一步建立的模型其實就是線性回歸模型,之後在這個基礎上通過乙個sigmoid函式將結果對映到 區間內。

1.2.1 線性回歸

線性回歸解決的是連續值**的問題,利用數理統計中回歸分析,確定兩個或者以上變數間相互依賴的定量關係的一種統計分析方法。

一元線性回歸分析表示式: y = ax + b,只包含乙個因變數和自變數,二者的關係可以近似的用一條直線表示

多元線性回歸分析: h(x) = c1x1 + c2x2 + … + cnxn,包括兩個或以上的因變數,並且因變數和自變數是線性關係。

下圖可展示多元線性回歸在解決問題上面優化的曲線

1.2.2 邏輯回歸

與線性回歸不同的是,邏輯回歸主要解決分類的問題。

舉個例子,惡性腫瘤與良性腫瘤的判斷。假如用線性回歸來解決,那麼這條直線會變成這樣:

在離散點增加的時候,此線就會偏移。

而邏輯回歸作為分類問題如下:

我們可以清晰的從圖中判斷出兩個模型的好壞,明顯在分類問題上邏輯回歸做出的**優於比線性回歸。而這個區別主要是因為在於sigmoid函式,將任意輸入對映到了[0, 1]區間。

1.3.1 定義

邏輯回歸一般使用交叉熵作為損失函式,我們先給出公式:

j (θ

)=−1

m[∑i

=1m(

y(i)

log⁡hθ

(x(i

))+(

1−y(

i))log⁡(

1−hθ

(x(i

)))]

j(\theta) = -\frac[\sum_^ ( \log h_\theta(x^) + (1-y^) \log (1-h_\theta(x^)})]

j(θ)=−

m1​[

i=1∑

m​(y

(i)loghθ

​(x(

i))+

(1−y

(i))

log(1−

hθ​(

x(i)

))]首先解釋一下損失函式的定義:

1)假設有訓練樣本(x, y),模型為h, 引數為θ。h(θ) = θtx (θt表示θ的轉置)。簡單來說,任何能夠衡量模型**出來的**值與真實值y之間的差異的函式都可以叫做損失函式,因此得出:

2)當我們確定模型h,那麼要做的事情就是訓練模型引數θ,基於損失函式的存在,我們的過程就是尋找乙個使損失函式j取最小值

3)而在優化過程中,最常用的就是梯度下降法

1.3.2 交叉熵

在邏輯回歸中,最常用的損失函式就是交叉熵。

此處參考:交叉熵詳解

優點:

缺點:正則化懲罰

使用多分類分類器

將不平衡的二分類問題轉換為異常點檢測

改變正負樣本在模型中的權重,相當於對於交叉熵來說,通過修改在某乙個闕值判斷正負樣本在改進模型

對模型進行交叉驗證和對資料進行混淆矩陣對稀有樣本擴充

正則化是結構風險最小化策略的實現,實在經驗風險上加上乙個正則項或懲罰項以避免過擬合。

2.1.1 l1正則化

l1正則化也成為lasso回歸,在原始的損失函式後面加乙個l1正則化項,所有權重w

ww的絕對值之和,乘以λ

n\frac

nλ​l2正則化也成為權重衰減,是所有引數w

ww的平方的和,除以訓練集樣本大小n

混淆矩陣是監督學習中視覺化工具,用於比較分類結果和例項的真實資訊。表中每一行表示例項的**類別,每一列表示例項的真是類別

真正(true positive , tp):被模型**為正的正樣本。

假正(false positive , fp):被模型**為正的負樣本。

假負(false negative , fn):被模型**為負的正樣本。

真負(true negative , tn):被模型**為負的負樣本。

真正率(true positive rate,tpr):tpr=tp/(tp+fn),即被**為正的正樣本數 /正樣本實際數。

假正率(false positive rate,fpr) :fpr=fp/(fp+tn),即被**為正的負樣本數 /負樣本實際數。

假負率(false negative rate,fnr) :fnr=fn/(tp+fn),即被**為負的正樣本數 /正樣本實際數。

真負率(true negative rate,tnr):tnr=tn/(tn+fp),即被**為負的負樣本數 /負樣本實際數/2

一般而言都是計算準確率來評估指標,更深的目前還接觸不到,就不過多介紹了。

參考的是:模型評估參考

機器學習 GBDT演算法梳理

學習任務 前向分步演算法 負梯度擬合 損失函式 回歸二分類,多分類 正則化優缺點 sklearn引數 應用場景 前言 提公升 boosting 方法是整合學習方法的一種,在分類問題中,它通過改變訓練樣本的權重,學習多個分類器,將弱分類器組裝成乙個強分類器,提高分類的效能。其最具代表性的是adaboo...

機器學習 線性回歸演算法梳理

學習內容 機器學習的一些概念 有監督 無監督 泛化能力 過擬合欠擬合 方差和偏差以及各自解決辦法 交叉驗證 線性回歸的原理 線性回歸損失函式 代價函式 目標函式 優化方法 梯度下降法 牛頓法 擬牛頓法等 線性回歸的評估指標 sklearn引數詳解 1.基本概念 有監督 訓練資料有標記資訊,如分類和回...

機器學習常用演算法原理梳理

adaboost gbdt xgboost lightgbm原理梳理與辨析 首先,這四個演算法都是整合演算法boosting框架下的。根據boosting策略不同可以分為兩大類,adaboost一類,gbdt xgboost lightgbm一類。3 gbdt 4 xgboost 5 lightgb...