邏輯回歸假設資料服從伯努利分布,通過極大似然函式的方法,
運用梯度下降法來求解引數,來達到將資料二分類的目的
這句中有5個考點:
lr的基本假設
lr的損失函式
lr的求解方法
lr的目的
lr如何做分類
基本假設
假設資料服從伯努利分布,就是假設hθ(
x)h_θ(x)
hθ(x)
樣本的正面的概率為p,負面概率為1-p
損失函式
損失函式一般有四種,平方損失函式,對數損失函式,hingeloss0-1損失函式,絕對值損失函式lr的損失函式就是它的極大似然函式,將極大似然函式取對數以後等同於對數損失函式,其實就是交叉熵
為 什麼
不用平方
損失函式
?\color為什麼不用平方損失函式?
為什麼不用平
方損失函
數?求解方法
sigmoid函式求導:g『(
最終得到下面這個:
邏輯回歸和最大熵模型本質上沒有區別,最大熵在解決二分類問題時就是邏輯回歸,在解決多分類問題時就是多項邏輯回歸
這裡包含了乙個優化方法,就是梯度下降本身,有隨機梯度下降,批梯度下降,small batch 梯度下降三種方式,如何選擇最合適的方式?答:
再深入就是學習率調整,adam和動量法,學過,但暫時不說太多,反正就是學習過程中調整學習率。
邏輯回歸的目的
對資料進行二分類,提高準確率,確定乙個閾值來做分類
lr的優點
形式簡單,模型可解釋性好
模型效果不錯,作為baseline很好用
訓練速度較快
資源占用少,記憶體方面只需要儲存各個維度的特徵值
lr的缺點
準確率不算太高,且模型結構比較簡單,很難擬合資料的真實分布
很難處理資料不平衡問題
如果不引入其他方法,處理不了非線性資料
為什麼把高度相關的特徵去掉?
其實有很多特徵高度相關也不會影響分類器的效能,但是可以大大提高訓練速度,特徵過多會影響訓練時間
lr為什麼要對特徵進行離散化?
計算簡單,稀疏向量內積乘法運算更快
魯棒性更強,不易受雜訊影響,碰到異常資料也不會造成過大干擾
模型泛化能力強,使得每個變數有單獨權重,引入了非線性,增加模型表達能力,還可以做特徵交叉,引入非線性
離散特徵和連續特徵其實就是,海量離散特徵+簡單模型」 與 「少量連續特徵+複雜模型」的權衡,前者折騰特徵,後者折騰模型(複雜模型通常是深度學習)
lr是線性模型嗎?
廣義上講是線性模型,但是引入了sigmoid,所以狹義上又是非線性模型,本質是線性回歸,只是加了一層sigmoid函式的對映
線性回歸和邏輯回歸區別?
目標函式是最小二乘
服從高斯分布
輸出是連續值
目標函式是極大似然
服從伯努利分布
輸出是離散值
svm和lr的區別:
都是分類、監督學習、判別式演算法
都可以通過核函式針對非線性情況分類
都能減少離群點的影響
損失函式不同,lr是交叉熵,svm是hinge loss
lr優化引數時所有樣本點都參與,svm只取離分離超平面最近的支援向量樣本。
lr對概率建模,svm對分類超平面建模
lr是處理經驗風險最小化,svm是結果風險最小化,體現在svm自帶l2正則項
lr是統計方法,svm是幾何方法
***** bayes與lr的區別:
機器學習入門 複習邏輯回歸
取h x 0.5時,y 1。由sigmoid函式的影象可知,當sigmoid函式的引數 tx 0時,h x 的取值即 0.5。由於是複習,不做過多的數學推導,直接給出代價函式的式子。此處的代價函式不是平方差代價函式,而是使用cost函式作以替代,而cost函式是乙個分段函式,實際上,cost函式中的...
機器學習 邏輯回歸
邏輯回歸 線性回歸的式子,作為邏輯回歸的輸入 適用場景 二分類 線性回歸的輸入 sigmoid函式 分類 0,1 概率值 計算公式 當目標值為1時 損失函式的變化 當目標值為0時 損失函式的變化 下面用乙個例項來說明邏輯回歸的用法 癌症概率 部分資料的截圖如下 資料描述 699條樣本,供11列資料,...
機器學習 邏輯回歸
coding utf 8 import pandas as pd import seaborn as sns from sklearn.model selection import train test split import matplotlib.pyplot as plt 用於畫圖 from ...