從線性模型到廣義線性模型一）模型假設篇

在統計學裡，對特定變數之間的關係進行建模、分析最常用的手段之一就是回歸分析。回歸分析的輸出變數通常記做

y ，也稱為因變數(dependent)、響應變數(response)、被解釋變數(explained)、被**變數(predicted)、從屬變數(regressand)；輸入變數通常記做x1

,…,xp

，也稱為自變數(independent)、控制變數(control&controlled)、解釋變數(explanatory)、**變數(predictor)、回歸量(regressor)。本文根據作者自己的一些學習心得和理解，簡單且不嚴格地介紹在模型假設方面普通線性模型和廣義線性模型的區別和聯絡/推廣(generalization)。廣義線性模型的擬合檢驗、推斷、診斷等方面的方法和手段依賴於模型所採用的分布型別，難以一概而論，將在作者後續的學習心得文章裡具體介紹。

普通線性模型(ordinary linear model)可以用下式表示：y=

β0+β

1x1+

β2x2

+…+β

p−1x

p−1+

ϵ (1.1)這裡β

i ，i=

1 ,…,p−

1 稱為未知引數，β0

稱為截矩項。

普通線性模型的假設主要有以下幾點：

1.響應變數

y 和誤差項

ϵ 正態性：響應變數

y 和誤差項

ϵ 服從正態分佈，且

ϵ 是乙個白雜訊過程，因而具有零均值，同方差的特性。

2.**量xi

和未知引數βi

的非隨機性：**量xi

具有非隨機性、可測且不存在測量誤差；未知引數βi

認為是未知但不具隨機性的常數，值得注意的是運用最小二乘法或極大似然法解出的未知引數的估計值β^

i 則具有正態性。

3.研究物件：如前所述普通線性模型的輸出項是隨機變數

y 。在隨機變數眾多的特點或屬性裡，比如分布、各種矩、分位數等等，普通線性模型主要研究響應變數的均值e[

y]。4.聯接方式：在上面三點假設下，對(1.1)式兩邊取數學期望，可得e[

y]=β

0+β1

x1+β

2x2+

…+βp

−1xp

−1(1.2)

從 (1.2)式可見，在普通線性模型裡，響應變數的均值e[

y]與**量的線性組合β0

+β1x

1+β2

x2+…

+βp−

1xp−

1 通過恒等式(identity)聯接，當然也可認為通過形為f(

x)=x

的函式(link function)聯接二者，即e[

y]=f

(β0+

β1x1

+β2x

2+…+

βp−1

xp−1

)=β0

+β1x

1+β2

x2+…

+βp−

1xp−

1 廣義線性模型(generalized linear model)正是在普通線性模型的基礎上，將上述四點模型假設進行推廣而得出的應用範圍更廣，更具實用性的回歸模型。

1.響應變數的分布推廣至指數分散族(exponential dispersion family)：比如正態分佈、泊松分布、二項分布、負二項分布、伽瑪分布、逆高斯分布。exponential dispersion family的詳細定義限於篇幅這裡不做詳細介紹。

2.**量xi

和未知引數βi

的非隨機性：仍然假設**量xi

具有非隨機性、可測且不存在測量誤差；未知引數βi

認為是未知且不具有隨機性的常數。

3.研究物件：廣義線性模型的主要研究物件仍然是響應變數的均值e[

y]。4.聯接方式：廣義線性模型裡採用的聯連函式(link function)理論上可以是任意的，而不再侷限於f(

x)=x

。當然了聯接函式的選取必然地必須適應於具體的研究案例。同時存在著與假設2.1裡提及的分布一一對應的聯接函式稱為標準聯接函式(canonical link or standard link)，如正態分佈對應於恒等式，泊松分布對應於自然對數函式等。標準聯接函式的推導及其應用上的優點涉及到指數分散族的標準化定義，這裡不做詳述。

考慮這樣乙個簡單的退保案例：乙個保險產品一共賣出12份保單(當然了這在現實中不可能，這裡僅為示例)，在保單期限內一共有6人退保。那麼採用這12個投保人的特徵資料如收入、職業、年齡等做為**變數對退保/退保率進行回歸分析時，普通線性模型不再適用，因為這裡退保這一事件不再服從正態分佈，而是二項分布(當然了如果觀測值的個數足夠大，比如大於30，正態分佈是乙個很好的近似)。此時就可採用廣義線性模型(目標分布採用二項分布)進行建模。

指數分布族(exponential dispersion family)實質上是對一類具有以下形式的概率密度函式或具有此類密度函式的分布的總括：fy

(y;θ

,ψ)=

exp[

(yθ–

b(θ)

)/ψ+

c(y;

ψ)]

這裡ψ 和

θ 是實引數，b(

.)和c(.

;.) 是實函式，該密度函式的支集(support)dψ

是r的子集，且不依賴於

θ 。滿足θ=

η=g(

μ)的聯接函式g(

μ)稱為標準聯接函式(standard or canonical link)。

一般情況下引數

ψ 的值是未知常數(fixed and unknown)，因此在許多glm文獻裡指數分布族又被稱為單引數指數族(one-parameter exponential family)。對於比較常用的分布，

ψ 和

θ 的取值具有特殊的形式：

正態分佈n(

μ,σ2

) ：ψ=

σ2和θ=μ

泊松分布po

isso

n(λ)

：ψ=1

和θ=l

ogλ

二項分布bi

nomi

al(m

,p) ：ψ=

1 和θ=

log(

p/(p

−1))

負二項分布ne

gati

vebi

nomi

al(r

,p) ：ψ=

1 和θ=

log(

1−p)

伽瑪分布ga

mma(

α,β)

：ψ=1

/α和θ=−

β/α

從線性模型到廣義線性模型 一） 模型假設篇

廣義線性模型

廣義線性模型

線性模型（一） 廣義線性模型（GLM）簡介

相關推薦

從線性模型到廣義線性模型一）模型假設篇

線性模型（一）廣義線性模型（GLM）簡介