邏輯斯蒂回歸是針對線性可分問題的一種易於實現而且效能優異的分類模型,是使用最為廣泛的分類模型之一。假設某件事發生的概率為p,那麼這件事不發生的概率為(1-p),我們稱p/(1-p)為這件事情發生的機率。取這件事情發生機率的對數,定義為logit(p),所以logit(p)為
因為logit函式的輸入取值範圍為[0,1](因為p為某件事情發生的概率),所以通過logit函式可以將輸入區間為[0,1]轉換到整個實數範圍內的輸出,log函式影象如下
將對數機率記為輸入特徵值的線性表示式如下:
其中,p(y=1|x)為,當輸入為x時,它被分為1類的概率為p,也屬於1類別的條件概率。而,實際上我們需要的是給定乙個樣本的特徵輸入x,而輸出是乙個該樣本屬於某類別的概率。所以,我們取logit函式的反函式,也被稱為logistic函式也就是sigmoid函式
ϕ(z)中的z為樣本特徵與權重的線性組合。通過函式影象可以發現sigmoid函式的幾個特點,當z趨於正無窮大的時候,ϕ(z)趨近於1,因為當z趨於無窮大的時候,e^(-z)趨於零,所以分母會趨於1,當z趨於負無窮大的時候,e^(-z)會趨於正無窮大,所以ϕ(z)會趨於0。如在**天氣的時候,我們需要**出明天屬於晴天和雨天的概率,已知根天氣相關的特徵和權重,定義y=1為晴天,y=-1為雨天,根據天氣的相關特徵和權重可以獲得z,然後再通過sigmoid函式可以獲取到明天屬於晴天的概率ϕ(z)=p(y=1|x),如果屬於晴天的概率為80%,屬於雨天的概率為20%,那麼當ϕ(z)>=0.8時,就屬於雨天,小於0.8時就屬於晴天。我們可以通過以往天氣的特徵所對應的天氣,來求出權重和ϕ(z)的閾值,也就是天氣所說的0.8。邏輯斯蒂回歸除了應用於天氣**之外,還可以應用於某些疾病**,所以邏輯斯蒂回歸在醫療領域也有廣泛的應用。
通過上面的公式可以發現,當似然函式的值非常小的晚上好,可以會出現數值溢位的情況為了降低這種情況發生的可能性和方便對似然函式進行最大化處理,取似然函式的對數
通過梯度上公升演算法求最大化似然函式的對數或者在將似然函式的對數乘以-1使用梯度下降演算法進行最小化,通過上面的公式可以發現,當y=0的時候,第一項為0,當y=1的時候第二項為0,損失函式如下
通過上圖,可以觀察到,當樣本被正確的劃分的時候損失函式是接近與0的,當樣本被錯誤的劃分的時候損失函式是趨於無窮大,這就意味著錯誤的**所帶來的代價將會越來越大,相對於之前的線**知器而言,logistic回歸錯誤**所帶來的代價要大的多。
相對於之前的線**知器而言,我們只需要修改啟用函式和代價函式。在實現logistic回歸之前,需要先計算出對數似然函式對於w的偏導,得到每次權重更新的δω。
所以δω應該為
如果使用梯度下降演算法,則ω=ω-δω,如果使用梯度上公升演算法ω=ω+δω。
邏輯斯蒂回歸
邏輯斯蒂回歸首先研究的是分類問題,所以我們這裡引入的激勵函式是sigmoid函式,所以邏輯斯蒂回歸也叫sigmoid回歸。當然也叫對數機率回歸。邏輯斯蒂回歸是直接對資料的分類的可能性進行建模,而不是假設資料的分布,這就避免了假設資料分布時不均勻所帶來的問題,所以邏輯斯蒂回歸不但可以 類別,還可以得出...
邏輯斯蒂回歸 機器學習ML
參考 1.統計學習方法 李航 2.邏輯斯蒂回歸是乙個非常經典的二項分類模型,也可以擴充套件為多項分類模型。其在應用於分類時的過程一般如下,對於給定的資料集,首先根據訓練樣本點學習到引數w,b 再對 點分別計算兩類的條件概率,將 點判為概率值較大的一類。1 線性模型 邏輯斯蒂回歸屬於對數線性模型,那什...
使用R完成邏輯斯蒂回歸分類
直接上 如下 data sample iris 51 150,m dim data sample 1 獲取資料集記錄條數 val sample m,size round m 3 replace false,prob rep 1 m,m 抽樣,選取三分之二的資料作為訓練集。iris.learn dat...