機器學習讀書筆記之9 邏輯回歸

2021-07-26 02:23:31 字數 1773 閱讀 1917

1 邏輯回歸模型

回歸是一種極易理解的模型,就相當於y=f(x),表明自變數x與因變數y的關係。最常見問題有如醫生治病時的望、聞、問、切,之後判定病人是否生病或生了什麼病,其中的望聞問切就是獲取自變數x,即特徵資料,判斷是否生病就相當於獲取因變數y,即**分類。

最簡單的回歸是線性回歸,在此借用andrew ng的講義,有如圖1.a所示,x為資料點——腫瘤的大小,y為觀測值——是否是惡性腫瘤。通過構建線性回歸模型,如h  θ (x)所示,構建線性回歸模型後,即可以根據腫瘤大小,**是否為惡性腫瘤h  θ (x)≥.05為惡性,h  θ (x)<0.5為良性。 

然而線性回歸的魯棒性很差,例如在圖1.b的資料集上建立回歸,因最右邊噪點的存在,使回歸模型在訓練集上表現都很差。這主要是由於線性回歸在整個實數域內敏感度一致,而分類範圍,需要在[0,1]。邏輯回歸就是一種減小**範圍,將**值限定為[0,1]間的一種回歸模型,其回歸方程與回歸曲線如圖2所示。邏輯曲線在z=0時,十分敏感,在z>>0或z<<0處,都不敏感,將**值限定為(0,1)。

對於訓練資料集,特徵資料x=和對應的分類資料y=。構建邏輯回歸模型f(θ),最典型的構建方法便是應用極大似然估計。首先,對於單個樣本,其後驗概率為: 

2 梯度下降

由第1節可知,求邏輯回歸模型f(θ),等價於:

3 模型評估

對於lr分類模型的評估,常用auc來評估,關於auc的更多定義與介紹,可見參考文獻2,在此只介紹一種極簡單的計算與理解方法。

auc正是衡量分類正確度的方法,將訓練集中的label看兩類的分類問題,分類目標是將**結果盡量將兩者分開。將每個0和1看成乙個pair關係,團中的訓練集共有5*5=25個pair關係,只有將所有pair關係一至時,分類結果才是最好的,而auc為1。在訓練方法1中,與10相關的pair關係完全正確,同樣9、8、7的pair關係也完全正確,但對於6,其pair關係(6,5)關係錯誤,而與4、3、2、1的關係正確,故其auc為(25-1)/25=0.96;對於分類方法2,其6、7、8、9的pair關係,均有乙個錯誤,即(6,1)、(7,1)、(8,1)、(9,1),對於資料點10,其正任何資料點的pair關係,都錯誤,即(10,1)、(10,2)、(10,3)、(10,4)、(10,5),故方法2的auc為(25-4-5)/25=0.64,因而正如直觀所見,分類方法1要優於分類方法2。

參考文獻:

1  andrew ng. logistic regression classification

2  

機器學習之邏輯回歸 Logistic 筆記

在說邏輯回歸之前,可以先說一說邏輯回歸與線性回歸的區別 邏輯回歸與線性回歸在學習規則形式上是完全一致的,它們的區別在於h x i 為什麼樣的函式 當h x i tx i 時,表示的是線性回歸,它的任務是做回歸用的。當時,表示的是邏輯回歸,假定模型服從二項分布,使用最大似然函式推導的,它的任務是做分類...

機器學習之邏輯回歸

什麼叫邏輯回歸?簡單來講便是目標值只有,而線性回歸的目標值卻是乙個區域 0,1 可以代表得病沒得病,正確錯誤,etc.那麼怎麼才能把給定的輸入值正確的分類到呢,下面就介紹乙個特別的函式 sigmoid函式,g z 1 1 exp z 啥都不說先上圖。上圖便是sigmoid函式圖了,之所以引用這個函式...

機器學習之 邏輯回歸

邏輯回歸又稱logistic回歸,邏輯斯諦回歸,是一種廣義的線性回歸分析模型。sigmoid函式也是神經網路中常用的函式,用於把x從負無窮到正無窮壓縮到y從0到1之間。畫出來就是一條s型曲線,如下圖中的藍色曲線 它以0點為中心對稱,公式如下 當x值接近負無窮時,分母很大,s x 接近0,當x接近正無...