《統計學習方法》筆記06 LR邏輯回歸模型

2021-08-04 15:54:56 字數 3278 閱讀 8128

我對lr模型的理解是,這是乙個形式很簡單的模型,對二分類問題來說: p(

y=1|

x)=1

1+e−

(wx+

b)其中x為n維特徵組成的向量,(w,b)為n維引數,兩者做點積,得到的結果放進lr模型中得到概率。lr模型的圖為:

通過訓練集學習到w引數,然後對測試集,用上述公式計算其屬於正類的概率。w可以看出每個特徵的貢獻度,w值越大,則該項正類貢獻越大,點積值越偏向於正類,否則為反類。即該模型有很好的可解釋性。

當然lr模型本質上為線性模型,因為學習的核心結果是(wx+b),這就是線性模型,只不過用lr將其值對映到概率0-1的空間中,比較符合很多問題的要求。

如果我們想增加1維特徵,也非常簡單,這意味著w引數多一維而已。而且為了使得模型具有非線性能力,我們可以使用one-hot對特徵進行處理。舉例來說,某個問題中使用了使用者的年齡屬性[0-80],如果我們僅使用一維w來與年齡點乘,則為一條直線模型。如果年齡40-50歲與結果是正相關,0-40與50-80都是負相關,則反映不出來;此時採用one-hot處理,將年齡劃分為10歲一段共分8段,每段乙個w權值,這樣就可以反映出不同年齡段的不同權重大小。而lr對這些操作有很好的接納和解釋。

以上是我的初步理解。根據《統計學習方法》第6章將lr整理如下。

設x是連續隨機變數,假如x具有如下分布函式和密度函式: f(

x)=p

(x≤x

)=11

+e−(

x−μ)

/γ f

(x)=

f,(x

)=e−

(x−μ

)/γγ

⋅(1+

e−(x

−μ)/

γ)2

則稱x服從邏輯斯蒂分布。其中

μ 為位置引數,

γ 為形狀引數。

f(x)影象見下圖,

γ 越小,形狀越陡。

密度函式f(x)的影象見下圖:

分類模型,由條件概率分布p(y|x)表示,形式為引數化的lr的分布。x的取值為實數,y的取值為1/0。通過監督學習方法來估計模型引數。p(

y=1|

x)=e

(wx+

b)1+

e(wx

+b)

p(y=

0|x)

=11+

e(wx

+b)

對於給定的輸入例項x,按照上式可計算出分別屬於1類和0類的概率,lr邏輯回歸模型將例項分到概率值較大的類。

定義:乙個事件的機率(odds)是指該事件發生的概率除以不發生的概率的比值。若該事件發生的概率是p,則其機率是p1

−p,該事件的對數機率(log odds)或者logit函式是: lo

git(

p)=l

ogp1

−p我們把二項邏輯斯蒂回歸模型的兩個概率相除,可得: lo

git(

p(y=

1|x)

p(y=

0|x)

)=w⋅

x+b

這說明什麼?

在邏輯斯蒂回歸模型中,輸出y=1的對數機率/logit函式是輸入x的線性函式。

換個角度看,通過邏輯斯蒂回歸模型,可以將線性函式wx+b轉化為概率。p(

y=1|

x)=e

(wx+

b)1+

e(wx

+b)

此時線性函式的值越接近正無窮,概率值越接近1;否則越接近0。

這樣的模型,就是邏輯斯蒂回歸模型。

而上面的式子上下同除以exp(wx+b),則得到 p(

y=1|

x)=1

1+e−

(wx+

b)與我初始理解是相同的。這也解開了之前乙個困惑點:

用這個式子算出來的概率值為什麼是p=1的概率值呢?誰規定的?

其實0/1只不過是人為設定的正、反類,lr回歸模型只不過計算出乙個wx+b線性函式值的概率對映,至於這個線性函式代表是哪個類,它是不知道的。這是由人在計算wx+b時約定的。1一般為正例,0代表反例。

lr模型學習時,應用極大似然估計法,估計模型引數。

對於訓練集t=

,其中x∈

rn,y

i∈,令p(

y=1|

x)=π

(x) ,則有:

似然函式為: ∏i

=1n[

π(xi

)]yi

⋅[1−

π(xi

)]1−

yi即把每一項乘起來,要麼為1類,要麼為0類,分別拎出其概率值。

對數似然函式為: l(

w)=∑

i=0n

[yil

og(π

(xi)

)+(1

−yi)

log(

1−π(

xi))

] =∑

i=0n

[yil

ogπ(

xi)1

−π(x

i)+l

og(1

−π(x

i))]

=∑i=0n[

yi(w

⋅xi)

−log

(1+e

xp(w

⋅xi)

)]對l(w)求極大值,得到w的估計值。

問題變成以對數似然函式為目標函式(最大化)的最優化問題。可採用梯度下降法、擬牛頓法等套路解決。

w的極大似然估計值為w^

,則邏輯斯蒂回歸模型為:p(

y=1|

x)=e

(w^x

+b)1

+e(w

^x+b

) 上述討論針對二項分類模型,用於二類分類,模型只需要學習到一組w引數,用於給y=1的類判斷,0用1一減即可。

用於多類k分類時,模型就需要學習到k-1組w引數,最後一類用1減去其他類之和得到。 p(

y=k|

x)=e

(wk⋅

x+b)

1+∑k

k=1e

(wk⋅

x+b)

二項邏輯回歸引數估計法也可推廣到多項邏輯回歸。

統計學習方法筆記1 統計學習方法概論

統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...

統計學習方法筆記

1.損失函式 期望,就是均值 極大似然估計 似然就是概率 可能性,所以也是極大可能性估計 對數損失是用於最大似然估計的。一組引數在一堆資料下的似然值,等於每一條資料的概率之積。而損失函式一般是每條資料的損失之和,為了把積變為和,就取了對數 再加個負號是為了讓 最大似然值和 最小損失對應起來 w 是w...

《統計學習方法》筆記一 統計學習方法概論

好久沒有更新部落格了,這次主要想整理一下之前學習過的機器學習和深度學習有關的知識。我本身數學專業基礎比較薄弱,另外主要做計算機視覺應用所以這個系列的文章並不會涉及很多數學理論知識,學習這些機器學習方法也主要是為了找工作而用,主要了解其中的思想和非常基礎的推導過程。一 統計學習的分類 統計學習方法是基...