假設有一些資料點,我們利用一條直線對這些資料點進行擬合(該線稱為最佳擬合直線),這個擬合過程就稱為回歸。利用logistic進行回歸的主要思想:根據現有資料對分類邊界線建立回歸公式,以此進行分類。
1.優化目標函式
需要的函式應該是可以接受所有的輸入然後**出類別。
例如,在兩類的情況下,上述函式輸出0或1。海維塞德階躍函式或者直接稱為單位階躍函式滿足這一性質。然而,海維塞德階躍函式存在以下問題:該函式在跳躍點上從0瞬間跳躍到1,這個瞬間過程很難處理。因此,我們一般選擇sigmoid函式。sigmoid函式具體公式如下:σ(
當x為0時。sigmoid函式值為0.5。隨著x的增大,sigmoid函式值趨近於1;而隨著x的減小,sigmoid函式值趨近於0。當橫座標足夠大時,sigmoid函式看起來很像乙個階躍函式。
為了實現logistic回歸分類器,可以在每個特徵上都乘以乙個回歸係數,然後吧所有的結果值想家,將這個綜合帶入sigmoid函式中,進而得到乙個範圍在0-1之間的數值。任何大於0.5的資料被分入1類,小於0.5即被歸入0類。所以logistic回歸也可以被看成是一種概率估計。
2.基於最優化方法的最佳回歸係數確定
sigmoid函式的輸入記為z,由下面公式得出:z=
w0x0
+w1x
1+w2
x2+.
..+w
nxn
如果採用向量的寫法,上述公式可以寫成z=
wtx ,它表示將這兩個數值向量對應元素相乘然後全部加起來得到z值。其中的向量x是分類器的輸入資料,向量w是我們要找到的最佳係數,從而使得分類器盡可能的精確。
梯度上公升法
梯度上公升法基本的思想是:找到某函式的最大值,最好的方法是沿著該函式的梯度方向探尋。梯度上公升演算法的迭代公式如下所示:
w:=w+
α▽wf
(w)
步長為α
,該公式將一直被迭代執行,直到達到某個停止條件為止,比如迭代次數達到某個指定值或演算法達到某個可以允許的誤差範圍。
梯度上公升演算法用來求函式的最大值,而梯度下降演算法用來求函式的最小值。
優缺點及適用範圍
優點:計算代價不高,易於理解和實現。
缺點:容易欠擬合,分類精度可能不高。
適用資料型別:數值型和標稱型資料。
統計學習方法筆記1 統計學習方法概論
統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...
統計學習方法筆記
1.損失函式 期望,就是均值 極大似然估計 似然就是概率 可能性,所以也是極大可能性估計 對數損失是用於最大似然估計的。一組引數在一堆資料下的似然值,等於每一條資料的概率之積。而損失函式一般是每條資料的損失之和,為了把積變為和,就取了對數 再加個負號是為了讓 最大似然值和 最小損失對應起來 w 是w...
《統計學習方法》筆記一 統計學習方法概論
好久沒有更新部落格了,這次主要想整理一下之前學習過的機器學習和深度學習有關的知識。我本身數學專業基礎比較薄弱,另外主要做計算機視覺應用所以這個系列的文章並不會涉及很多數學理論知識,學習這些機器學習方法也主要是為了找工作而用,主要了解其中的思想和非常基礎的推導過程。一 統計學習的分類 統計學習方法是基...