lr指的是logistic regression,邏輯回歸。而不是linear regression,線性回歸,不要問為什麼,記住它就好了,haha。
它是一種監督學習分類演算法,不是回歸演算法!!這裡千萬要注意啦。
lr常用於二分類問題,(0或者1)
假如我們有一堆二維資料,也就是這堆資料有2個特徵x1和x2,視覺化如下:
我們可以找到一條直線對三角形和圓形進行區分。(這是線性回歸)
這條直線(上圖紅色的線)的函式可以這麼寫:z = w1 * x1 + w2 * x2 + b(特徵之間的線性組合,b理解為偏置)
但是,如果三角形和圓形分布如下:
我們就不能用一條直線對圓形和三角形進行區分;
因此,為了更好的實現分類,邏輯回歸誕生了。
需要用非線性函式將直線掰彎成曲線(對應上圖中紅色的圓)對兩者進行區分。
在邏輯回歸中,假設資料服從伯努利分布,通過極大似然函式的方法,運用梯度下降來求解引數,來達到將資料二分類的目的。
我們使用的非線性函式是:
sigmoid函式:
sigmoid基本性質:
1.定義域:(-∞,∞)
2.值域:(0,1)
3.函式在定義域內連續且光滑的函式
4.出處可導
導數為:
h』(x) = h(x)(1 - h(x))
注:sigmoid缺點:
1.由於其軟飽和性,容易產生梯度消失,導致訓練出現問題。
2.其輸出並不是以0為中心的。
邏輯回歸的損失函式:
j : 損失函式(代價函式)
m:樣本數量
y(i):第i個樣本的真實標籤
y』(i):第i個樣本的**標籤
邏輯回歸的優缺點:
優點:直接對分類可能性進行建模,無需實現假設資料分布,這樣就避免了假設分布不準確所帶來的問題。
形式簡單,模型的可解釋性非常好,特徵的權重可以看到不同的特徵對最後結果的影響。
除了類別,還能得到近似概率**,這對許多需利用概率輔助決策的任務很有用。
缺點:準確率不是很高,因為形勢非常的簡單,很難去擬合資料的真實分布。
本身無法篩選特徵。
參考和引用:
僅用來個人學習和分享,如有錯誤,請指正。
尊重他人智財權,不做拿來主義者!
你的關注和喜歡就是我write博文的動力。
機器學習 邏輯回歸
邏輯回歸 線性回歸的式子,作為邏輯回歸的輸入 適用場景 二分類 線性回歸的輸入 sigmoid函式 分類 0,1 概率值 計算公式 當目標值為1時 損失函式的變化 當目標值為0時 損失函式的變化 下面用乙個例項來說明邏輯回歸的用法 癌症概率 部分資料的截圖如下 資料描述 699條樣本,供11列資料,...
機器學習 邏輯回歸
coding utf 8 import pandas as pd import seaborn as sns from sklearn.model selection import train test split import matplotlib.pyplot as plt 用於畫圖 from ...
機器學習 邏輯回歸
邏輯 邏輯,源自古典希臘語 logos 最初的意思是 詞語 或 言語 引申意思是 思維 或 推理 1902年,教育家嚴復將其意譯為 名學 音譯為 邏輯 回歸 回歸是統計學的乙個重要概念,其本意是根據之前的資料 乙個準確的輸出值。邏輯回歸是目前使用最為廣泛的一種學習演算法,用於解決分類問題。與線性回歸...