機器學習基礎演算法梳理 2

1.3 邏輯回歸損失函式

1.4 優缺點

1. 5 樣本不均衡解決方法

二、正則化與模型評估

2.2 評估指標

2.2.1 混淆矩陣

邏輯回歸於線性回歸實際上有很多相似之處，它們都屬於乙個族群，即廣義線性模型。

這一模型中的形式基本差不多，基於模型中資料的特徵進行建模，所解決的問題均以資料為導向的連續或者分類的結果。邏輯回歸的第一步建立的模型其實就是線性回歸模型，之後在這個基礎上通過乙個sigmoid函式將結果對映到區間內。

1.2.1 線性回歸

線性回歸解決的是連續值**的問題，利用數理統計中回歸分析，確定兩個或者以上變數間相互依賴的定量關係的一種統計分析方法。

一元線性回歸分析表示式： y = ax + b,只包含乙個因變數和自變數，二者的關係可以近似的用一條直線表示

多元線性回歸分析： h(x) = c1x1 + c2x2 + … + cnxn，包括兩個或以上的因變數，並且因變數和自變數是線性關係。

下圖可展示多元線性回歸在解決問題上面優化的曲線

1.2.2 邏輯回歸

與線性回歸不同的是，邏輯回歸主要解決分類的問題。

舉個例子，惡性腫瘤與良性腫瘤的判斷。假如用線性回歸來解決，那麼這條直線會變成這樣：

在離散點增加的時候，此線就會偏移。

而邏輯回歸作為分類問題如下：

我們可以清晰的從圖中判斷出兩個模型的好壞，明顯在分類問題上邏輯回歸做出的**優於比線性回歸。而這個區別主要是因為在於sigmoid函式，將任意輸入對映到了[0, 1]區間。

1.3.1 定義

邏輯回歸一般使用交叉熵作為損失函式，我們先給出公式：

j (θ

)=−1

m[∑i

=1m(

y(i)

log⁡hθ

(x(i

))+(

1−y(

i))log⁡(

1−hθ

(x(i

)))]

j(\theta) = -\frac[\sum_^ ( \log h_\theta(x^) + (1-y^) \log (1-h_\theta(x^)})]

j(θ)=−

m1[

i=1∑

m(y

(i)loghθ

(x(

i))+

(1−y

(i))

log(1−

hθ(

x(i)

))]首先解釋一下損失函式的定義：

1）假設有訓練樣本(x, y)，模型為h，引數為θ。h(θ) = θtx (θt表示θ的轉置)。簡單來說，任何能夠衡量模型**出來的**值與真實值y之間的差異的函式都可以叫做損失函式，因此得出：

2）當我們確定模型h，那麼要做的事情就是訓練模型引數θ，基於損失函式的存在，我們的過程就是尋找乙個使損失函式j取最小值

3）而在優化過程中，最常用的就是梯度下降法

1.3.2 交叉熵

在邏輯回歸中，最常用的損失函式就是交叉熵。

此處參考：交叉熵詳解

優點：

缺點：正則化懲罰

使用多分類分類器

將不平衡的二分類問題轉換為異常點檢測

改變正負樣本在模型中的權重，相當於對於交叉熵來說，通過修改在某乙個闕值判斷正負樣本在改進模型

對模型進行交叉驗證和對資料進行混淆矩陣對稀有樣本擴充

正則化是結構風險最小化策略的實現，實在經驗風險上加上乙個正則項或懲罰項以避免過擬合。

2.1.1 l1正則化

l1正則化也成為lasso回歸，在原始的損失函式後面加乙個l1正則化項，所有權重w

ww的絕對值之和，乘以λ

n\frac

nλl2正則化也成為權重衰減，是所有引數w

ww的平方的和，除以訓練集樣本大小n

混淆矩陣是監督學習中視覺化工具，用於比較分類結果和例項的真實資訊。表中每一行表示例項的**類別，每一列表示例項的真是類別

真正(true positive , tp)：被模型**為正的正樣本。

假正(false positive , fp)：被模型**為正的負樣本。

假負(false negative , fn)：被模型**為負的正樣本。

真負(true negative , tn)：被模型**為負的負樣本。

真正率(true positive rate,tpr)：tpr=tp/(tp+fn)，即被**為正的正樣本數 /正樣本實際數。

假正率(false positive rate,fpr) ：fpr=fp/(fp+tn)，即被**為正的負樣本數 /負樣本實際數。

假負率(false negative rate,fnr) ：fnr=fn/(tp+fn)，即被**為負的正樣本數 /正樣本實際數。

真負率(true negative rate,tnr)：tnr=tn/(tn+fp)，即被**為負的負樣本數 /負樣本實際數/2

一般而言都是計算準確率來評估指標，更深的目前還接觸不到，就不過多介紹了。

參考的是：模型評估參考

機器學習 GBDT演算法梳理

學習任務前向分步演算法負梯度擬合損失函式回歸二分類，多分類正則化優缺點 sklearn引數應用場景前言提公升 boosting 方法是整合學習方法的一種，在分類問題中，它通過改變訓練樣本的權重，學習多個分類器，將弱分類器組裝成乙個強分類器，提高分類的效能。其最具代表性的是adaboo...

機器學習線性回歸演算法梳理

學習內容機器學習的一些概念有監督無監督泛化能力過擬合欠擬合方差和偏差以及各自解決辦法交叉驗證線性回歸的原理線性回歸損失函式代價函式目標函式優化方法梯度下降法牛頓法擬牛頓法等線性回歸的評估指標 sklearn引數詳解 1.基本概念有監督訓練資料有標記資訊，如分類和回...

機器學習常用演算法原理梳理

adaboost gbdt xgboost lightgbm原理梳理與辨析首先，這四個演算法都是整合演算法boosting框架下的。根據boosting策略不同可以分為兩大類，adaboost一類，gbdt xgboost lightgbm一類。3 gbdt 4 xgboost 5 lightgb...

機器學習基礎演算法梳理 2

機器學習 GBDT演算法梳理

機器學習 線性回歸演算法梳理

機器學習常用演算法原理梳理

相關推薦

機器學習線性回歸演算法梳理