在統計學裡,對特定變數之間的關係進行建模、分析最常用的手段之一就是回歸分析。回歸分析的輸出變數通常記做
y ,也稱為因變數(dependent)、響應變數(response)、被解釋變數(explained)、被**變數(predicted)、從屬變數(regressand);輸入變數通常記做x1
,…,xp
,也稱為自變數(independent)、控制變數(control&controlled)、解釋變數(explanatory)、**變數(predictor)、回歸量(regressor)。本文根據作者自己的一些學習心得和理解,簡單且不嚴格地介紹在模型假設方面普通線性模型和廣義線性模型的區別和聯絡/推廣(generalization)。廣義線性模型的擬合檢驗、推斷、診斷等方面的方法和手段依賴於模型所採用的分布型別,難以一概而論,將在作者後續的學習心得文章裡具體介紹。
普通線性模型(ordinary linear model)可以用下式表示:y=
β0+β
1x1+
β2x2
+…+β
p−1x
p−1+
ϵ (1.1)這裡β
i ,i=
1 ,…,p−
1 稱為未知引數,β0
稱為截矩項。
普通線性模型的假設主要有以下幾點:
1.響應變數
y 和誤差項
ϵ 正態性:響應變數
y 和誤差項
ϵ 服從正態分佈,且
ϵ 是乙個白雜訊過程,因而具有零均值,同方差的特性。
2.**量xi
和未知引數βi
的非隨機性:**量xi
具有非隨機性、可測且不存在測量誤差;未知引數βi
認為是未知但不具隨機性的常數,值得注意的是運用最小二乘法或極大似然法解出的未知引數的估計值β^
i 則具有正態性。
3.研究物件:如前所述普通線性模型的輸出項是隨機變數
y 。在隨機變數眾多的特點或屬性裡,比如分布、各種矩、分位數等等,普通線性模型主要研究響應變數的均值e[
y]。4.聯接方式:在上面三點假設下,對(1.1)式兩邊取數學期望,可得e[
y]=β
0+β1
x1+β
2x2+
…+βp
−1xp
−1(1.2)
從 (1.2)式可見,在普通線性模型裡,響應變數的均值e[
y]與**量的線性組合β0
+β1x
1+β2
x2+…
+βp−
1xp−
1 通過恒等式(identity)聯接,當然也可認為通過形為f(
x)=x
的函式(link function)聯接二者,即e[
y]=f
(β0+
β1x1
+β2x
2+…+
βp−1
xp−1
)=β0
+β1x
1+β2
x2+…
+βp−
1xp−
1 廣義線性模型(generalized linear model)正是在普通線性模型的基礎上,將上述四點模型假設進行推廣而得出的應用範圍更廣,更具實用性的回歸模型。
1.響應變數的分布推廣至指數分散族(exponential dispersion family):比如正態分佈、泊松分布、二項分布、負二項分布、伽瑪分布、逆高斯分布。exponential dispersion family的詳細定義限於篇幅這裡不做詳細介紹。
2.**量xi
和未知引數βi
的非隨機性:仍然假設**量xi
具有非隨機性、可測且不存在測量誤差;未知引數βi
認為是未知且不具有隨機性的常數。
3.研究物件:廣義線性模型的主要研究物件仍然是響應變數的均值e[
y]。4.聯接方式:廣義線性模型裡採用的聯連函式(link function)理論上可以是任意的,而不再侷限於f(
x)=x
。當然了聯接函式的選取必然地必須適應於具體的研究案例。同時存在著與假設2.1裡提及的分布一一對應的聯接函式稱為標準聯接函式(canonical link or standard link),如正態分佈對應於恒等式,泊松分布對應於自然對數函式等。標準聯接函式的推導及其應用上的優點涉及到指數分散族的標準化定義,這裡不做詳述。
考慮這樣乙個簡單的退保案例:乙個保險產品一共賣出12份保單(當然了這在現實中不可能,這裡僅為示例),在保單期限內一共有6人退保。那麼採用這12個投保人的特徵資料如收入、職業、年齡等做為**變數對退保/退保率進行回歸分析時,普通線性模型不再適用,因為這裡退保這一事件不再服從正態分佈,而是二項分布(當然了如果觀測值的個數足夠大,比如大於30,正態分佈是乙個很好的近似)。此時就可採用廣義線性模型(目標分布採用二項分布)進行建模。
指數分布族(exponential dispersion family)實質上是對一類具有以下形式的概率密度函式或具有此類密度函式的分布的總括:fy
(y;θ
,ψ)=
exp[
(yθ–
b(θ)
)/ψ+
c(y;
ψ)]
這裡ψ 和
θ 是實引數,b(
.)和c(.
;.) 是實函式,該密度函式的支集(support)dψ
是r的子集,且不依賴於
θ 。滿足θ=
η=g(
μ)的聯接函式g(
μ)稱為標準聯接函式(standard or canonical link)。
一般情況下引數
ψ 的值是未知常數(fixed and unknown),因此在許多glm文獻裡指數分布族又被稱為單引數指數族(one-parameter exponential family)。對於比較常用的分布,
ψ 和
θ 的取值具有特殊的形式:
正態分佈n(
μ,σ2
) :ψ=
σ2和θ=μ
泊松分布po
isso
n(λ)
:ψ=1
和θ=l
ogλ
二項分布bi
nomi
al(m
,p) :ψ=
1 和θ=
log(
p/(p
−1))
負二項分布ne
gati
vebi
nomi
al(r
,p) :ψ=
1 和θ=
log(
1−p)
伽瑪分布ga
mma(
α,β)
:ψ=1
/α和θ=−
β/α
廣義線性模型
廣義線性模型是線性模型的擴充套件,主要是對非正態因變數的分析 廣義線性擬合的核心是最大似然估計,而不是最小二乘 擬合模型如下 y 0 pj 1 jx j 其中,beta是係數,mu是優勢比的對數,beta係數是對優勢比的影響。通過擬合求得的就是 我們可以通過兩個例子看一下兩種變數 類別型 自變數x ...
廣義線性模型
之前提到過,線性回歸模型有三個限制 響應變數服從正態分佈,響應變數和解釋變數之間服從線性關係,方差不變。其實在構建乙個線性模型的時候,除了上述的兩個要求,我們還需要對解釋變數進行具體的分析,主要有幾點,首先是解釋變數之間的相互作用 interaction 對結果的影響,簡單來說就是模型不僅僅受因素a...
線性模型(一) 廣義線性模型(GLM)簡介
我們從初中開始接觸線性方程,線性關係是變數間最簡單的關係,所以我打算從線性模型入手開始介紹機器學習的基本演算法。廣義線性模型 general linear model,glm 是線性回歸模型的推廣形式,由廣義線性模型可以推導出線性回歸 logistic回歸 softmax回歸等。之前看過的大多數的書...