回歸的線性模型(2)

2021-07-28 22:45:41 字數 2835 閱讀 2337

其實越往後面越發現自己之前認識的片面性,但是對我這種記性不好的人來說還是要寫一點東西總結一下,以便之後翻查,審視自己當初的思路有沒有錯誤。不當之處還請各位及時批評。

前文已經看到,採用最大似然方法對目標變數的分布進行點估計時,容易產生過擬合現象, 通過引入分布引數的先驗概率來引入正則化項,來限制模型複雜度,消除過擬合。

那麼為什麼限制模型複雜度,即讓我們選擇較為簡單的模型是正確的做法呢?

為了尋找背後直覺,翻看了一些經典

例如,先給了我們乙個16,我們腦海中會浮現以下一些規則:

* 偶數

* 2的n次冪

* 個位帶6的數字

* 十位是1的數字

* 4的n次冪

…當再給我們4,64,2時,我們就會肯定的說:是2的n次冪。

我們為什麼不會說:是2的n次冪,除了32

…我們得到的樣本資料是有雜訊的,當完美的擬合了樣本資料之後,我們也完美的擬合了這些隨機雜訊。

prml第三章後半段還涉及了對模型證據和超參選擇的討論,只看了計算過程,理解不深,後面慢慢理解後再新增這部分內容

還是前文的假設:

之前我們的方法是直接用y(

x,w)

=wtφ

+ϵ擬合目標變數分布其中ϵ

是我們假設的乙個均值為0,精度為

β 的高斯雜訊 p(

ϵ)=

(ϵ|0

,β−1

) 然後,y(x

,w) 自然也就變成了乙個高斯分布 p(

t|x,

w,β)

=(t

|y(x

,w),

β−1)

前文我們的方法是通過估計

w 的後驗分布,選出使後驗分布最大化的

w 來當作我們**分布的引數,其實就是對

w 進行點估計 p(

w|)

∝p(

|w)p

(w)

貝葉斯方法說我不進行點估計,我不是估計出了

w 的後驗分布了嗎,我再根據這個後驗分布去估計目標變數

t 的分布 p(

t|)

=∫p(

t|w,

)p(

w|)

dw(*注意:這幾個公式一定要看清裡面的引數是標量還是向量,不然容易搞混公式意義)

先來看對

w 的分布的估計

觀察公式 p(

w|)

∝p(

|w)p

(w)

更符合假設一點的寫法: p(

w|x,

t,β)

∝p(t

|w,x

,β)p

(w)

由於我們是對

w 進行估計(注意,對不同引數進行估計選擇的共軛先驗是不同的),似然函式是

w 的二次函式的指數形式,於是對應的先驗分布是高斯分布: p(

w)=

(w|m

0,s0

) 所以得w

的後驗分布為: p(

w|x,

t,β)

=(w

|mn,

sn)

其中 mn=

sn(s

−10m

0+βφ

tt)

s−1n

=s−1

+βφt

φ 至此,後驗分布確定(其實還有超參

α ——

w 的先驗分布精度、

β ——高斯雜訊精度,沒有被確定,可以通過交叉驗證或後面的證據近似來確定)p(

t|w,

x,β)

=(t

|wtφ

(x),

β)注意,這裡的

x 是我們要進行**的新特徵向量。

這裡要求倆個分布的卷積,由高斯邊緣密度公式的: p(

t|x,

t,α,

β)=

(t|m

tnφ(

x),σ

2n(x

))其中**分布的方差σ2

n(x)

為: σ2

n(x)

=1β+

φ(x)

tsnφ

(x)

p(y|

x,w,

b)=l

ap(y

|wtx

,b)∝

exp(

−1b|

y−wt

x|)

利用split variable trick轉化成線性規劃問題(linear program)

另介紹了一種神奇的損失函式——huber loss function lh

(r,δ

)={r

22δ|

r|−δ

22if

|r|≤

δif|

r|>δ

當誤差較小時,等價於 ℓ2

範數,誤差較大時,等價於 ℓ1

範數,此函式處處可微,可以用牛頓法等計算而非線性規劃。

還有一張非常直觀的表

likelihood

prior

name

gaussian

uniform

least squares

gaussian

gaussian

ridge

gaussian

laplace

lasso

laplace

uniform

robust regression

student

uniform

robust regression

線性回歸模型 線性回歸模型

回歸的思想和分類有所不一樣,分類輸出的結果為離散的值,回歸輸出的是乙個連續型的值。線性回歸的思想就是試圖找到乙個多元的線性函式 當輸入一組特徵 也就是變數x 的時候,模型輸出乙個 值y h x 我們要求這個 值盡可能的準確,那麼怎麼樣才能做到盡可能準確呢?其中 表示實際值,表示 值 其中 表示實際值...

線性回歸模型

基本結構 y w t x by w t cdot x b y wt x b資料集 通常收集一系列的真實資料,如果多棟房屋的真實 和他們對應的面積和房齡。我們希望在資料集上尋找模型引數來使得 和真實 誤差最小。該資料集被稱為訓練資料集,每個房屋被稱為乙個樣本,真實的售出 叫做標籤,用來 標籤的因素叫做...

線性回歸模型 線性回歸 vs 結構方程模型

對線性回歸和結構方程模型進行簡單的刨析比較,拋開統計學方面的理論,盡量說得通俗易懂些。線性回歸 regression 與結構方程模型 structural equation modeling 是用來驗證變數間的因果關係時,最經常使用的方法。本文比較下兩者的區別,拋開具體統計學方面的理論,盡量說得通俗...