一、簡介
假設現在有一些資料點,我們用一條直線對這些點進行擬合,這個擬合的過程就稱作回歸。logistic回歸的主要思想是:根據現有資料對分類邊界線建立回歸方式,以此進行分類。這是乙個二值型輸出分類器。由於需要進行距離計算,以此要求資料型別為數值型。
二、基本思想
我們想要的函式是能夠接受所有的輸入然後**出類別。我們此處用的函式是sigmoid函式,sigmoid函式具體的計算方式如下:
當x為0時,sigmoid函式值為0.5。隨著x的增大,對應的sigmoid函式值將逼近1;隨著x的減少,對應的sigmoid函式值將逼近0。如果橫座標刻度足夠大,sigmoid函式看起來很像乙個階躍函式。為了實現回歸器,我們在每個特徵上都乘以乙個回歸係數,然後把所有的結果值相加,將這個結果帶入sigmoid函式中,進而得到乙個範圍在0~1之間的數值。任何大於0.5的資料被分入1類,小於0.5的資料歸入0類。所以,logistic回歸也可以被看成是一種概率估計。確定了分類器的函式形式,現在的問題變成了求回歸係數。
sigmoid函式的輸入記為z,由下面公式得出:
如果採用向量的寫法,上述公式可以寫成
x是分類器的輸入資料,向量
w也就是我們要找到的最佳引數,從而使得分類器盡可能地精準。
我們使用梯度上公升的最優化方法求得資料集的最佳引數,梯度上公升法基於的思想是:要找到某函式的最大值,最好的方法是沿著該函式的梯度方向探尋。梯度運算元總是指向函式值增長最快的方向。梯度上公升演算法的迭代公式是:
該公式一直被迭代執行,直到達到某個停止條件為止,比如迭代次數達到某個指定值或演算法達到某個可以允許的誤差範圍。
梯度上公升法找到最佳回歸係數的偽**:
每個回歸係數初始化為1
重複r次:
計算整個資料的梯度
使用alpha*gradient更新回歸係數的向量
返回回歸係數
三、小結
1、處理資料中的缺失值:
使用可用特徵值的均值來填補缺失值;
使用特殊值來填補缺失值,如0;
忽略有缺失的樣本;
使用相似樣本的均值填補缺失值;
使用另外的機器學習演算法**缺失值
ps:參考自《機器學習實踐》
logistic回歸 logistic回歸
logistic回歸 logistic回歸分析可用於估計某個事件發生的可能性,這是乙個分類模型而不是乙個回歸模型!它的基本思想是利用一條直線將平面上的點分為兩個部分,即兩個類別,要解決的問題就是如何擬合出這條直線,這個擬合的過程就稱之為 回歸 logistic模型 假設你有乙個需要 的內容,要通過三...
logistic分類(logistic回歸 LR)
幾乎所有的教材都是從logistic分類開始的,因為logistic分類實在太經典,而且是神經網路的基本組成部分,每個神經元 cell 都可以看做是進行了一次logistic分類。所謂logistic分類,顧名思義,邏輯分類,是一種二分類法,能將資料分成0和1兩類。logistic分類的流程比較簡單...
Logistic回歸模型
一 logistic回歸模型 線性回歸模型要求因變數是連續型正態變數。當因變數是分類變數時,logistic回歸模型是最好的回歸模型。由於y只能取兩個值1或0,y的條件數學期望 e y xi 1 p y 1 xi 0 p y 0 xi p y 1 xi 選擇乙個函式,p y 1 x f x logi...