傳統線性模型所面臨的問題:
在現實生活中,變數的作用通常不是線性的。
廣義加性模型是一種自由靈活的統計模型,它可以用來探測到非線性回歸的影響。模型如下: e(
y|x1
,...
,xp)
=α+f
1(x1
)+f2
(x2)
+...
+fp(
xp)
x1直觀的理解就是,模型放鬆了對,...
,xp 是**器(predictor),其實就是自變數;
y 是輸出; fj
是非引數函式; α和
fj()
是要估計
的 ;
x 是線性的要求,可以對每個自變數進行非線性的變換。
感覺esl裡的樹模型和決策樹的思想類似。
二者都是根據自變數
x來對原始輸入空間進行劃分。然後使用相應的函式來檢測劃分子集的純度怎麼樣,一次來判斷劃分的好壞。
《統計學習方法》裡說可以將決策樹看作是 if
−the
n 規則,每條路徑構建一條判別規則。任意乙個例項都被且僅被一條路徑覆蓋。
esl中損失函式定義為: cα
(t)=
∑m=1
|t|n
mqm(
t)+α
|t|
t 代表樹模型,|t小插曲:前面的文章曾經介紹過分段多項式:|代表葉子的個數; nm
代表第m 個葉子中的例項個數; c^
m=1n
m∑xi
∈rmy
i; qm
(t)=
1nm∑
x∈rm
(yi−
c^m)
2 ; α|
t|是用來做剪枝,控制複雜度用的;
我感覺這個圖可以看成是只有乙個連續屬性的決策樹,即x∈
r 。這裡對劃分結點的選擇是乙個值得**的問題。這個問題在 kn
ots 選擇裡應該有涉及。
決策樹又可分為回歸和分類兩類,區別在於選取劃分點和劃分自變數上。對於回歸可以使用: mi
nj,s
[min
c1∑x
i∈r1
(j,s
)(yi
−c1)
2+mi
nc2∑
xi∈r
2(j,
s)(y
i−c2
)2]
j 是劃分變數;分類問題可以使用資訊增益,基尼指數,增益率等等來做。s是劃分點;
參考文章: ≪統計學習精要(the elements of statistical learning)≫課堂筆記(十二)
幾個加性提公升模型
根據schapire的理論,我們可以通過組合幾個僅僅比隨機猜測略好的模型來獲得乙個非常精確的模型.我們把這個過程叫做提公升 boosting 加性模型為我們提供了一種 組合幾個弱分類器 的形式.很多著名模型都是加性提公升的,如適應性提公升 adaboost 以及梯度提公升決策樹 gbdt 對於訓練集...
廣義線性模型
廣義線性模型是線性模型的擴充套件,主要是對非正態因變數的分析 廣義線性擬合的核心是最大似然估計,而不是最小二乘 擬合模型如下 y 0 pj 1 jx j 其中,beta是係數,mu是優勢比的對數,beta係數是對優勢比的影響。通過擬合求得的就是 我們可以通過兩個例子看一下兩種變數 類別型 自變數x ...
廣義線性混合模型
說下自己的理解,權當拋磚引玉。首先,題主問題有誤,glm一般是指generalized linear model,也就是廣義線性模型 而非general linear model,也就是一般線性模型 而glmm generalized linear mixed model 是廣義線性混合模型。廣義線...