拓端tecdat R方和線性回歸擬合優度

2021-09-26 20:37:38 字數 2620 閱讀 4665

我最近一直在教授建模課程,並一直在閱讀和思考適合度的概念。 r方由協變數x解釋的結果y的變化比例通常被描述為擬合優度的度量。這當然看起來非常合理,因為r平方測量觀察到的y值與模型的**(擬合)值的接近程度。

然而,要記住的重要一點是,r平方不會向我們提供有關我們的模型是否正確指定的資訊。也就是說,它沒有告訴我們我們是否正確地指定了結果y的期望如何取決於協變數。特別是,r平方的高值並不一定意味著我們的模型被正確指定。用乙個簡單的例子說明這是最簡單的。

首先,我們將使用r模擬一些資料。為此,我們從標準正態分佈(均值為零,方差一)中隨機生成x值。然後,我們生成結果y等於x加上隨機誤差,再次使用標準正態分佈:

n < -  1000

set.seed(512312)

x < - rnorm(n)

y < - x + rnorm(n)

然後我們可以擬合y的(正確的)線性回歸模型,其中x作為協變數:

summary(mod1)

call:

lm(formula = y ~ x)

residuals:

min 1q median 3q max

-2.8571 -0.6387 -0.0022 0.6050 3.0716

coefficients:

estimate std. error t value pr(>|t|)

(intercept) 0.02193 0.03099 0.708 0.479

x 0.93946 0.03127 30.040 <2e-16 ***

---signif. codes: 0 『***』 0.001 『**』 0.01 『*』 0.05 『.』 0.1 『 』 1

residual standard error: 0.98 on 998 degrees of freedom

multiple r-squared: 0.4748, adjusted r-squared: 0.4743

f-statistic: 902.4 on 1 and 998 df, p-value: < 2.2e-16

我們還可以繪製資料,用模型中的擬合線覆蓋:

觀察到(y,x)資料並重疊擬合線。 

現在讓我們重新生成資料,但是生成y使得它的期望值是x的指數函式:

x < -  rnorm(n)

y < - exp(x)+ rnorm(n)

當然,在實踐中,我們不模擬我們的資料 - 我們觀察或收集資料,然後嘗試將合理的模型擬合到它。因此,和以前一樣,我們可以從擬合簡單的線性回歸模型開始,該模型假設y的期望是x的線性函式:

call:

lm(formula = y ~ x)

residuals:

min 1q median 3q max

-3.5022 -0.9963 -0.1706 0.6980 21.7411

coefficients:

estimate std. error t value pr(>|t|)

(intercept) 1.65123 0.05220 31.63 <2e-16 ***

x 1.53517 0.05267 29.15 <2e-16 ***

---signif. codes: 0 『***』 0.001 『**』 0.01 『*』 0.05 『.』 0.1 『 』 1

residual standard error: 1.651 on 998 degrees of freedom

multiple r-squared: 0.4598, adjusted r-squared: 0.4593

f-statistic: 849.5 on 1 and 998 df, p-value: < 2.2e-16

與第一種情況不同,我們獲得的引數估計(1.65,1.54)不是「真實」資料生成機制中引數的無偏估計,其中y的期望是exp(x)的線性函式。此外,我們看到我們得到的r平方值為0.46,再次表明x(包括線性)解釋了y中相當大的變化。我們可能認為這意味著我們使用的模型,即期望y在x中是線性的,是合理的。但是,如果我們再次繪製觀察到的資料,並用擬合線覆蓋它:

將擬合線疊加到觀察到的資料上清楚地表明我們使用的模型未正確指定,儘管r平方值非常大。特別地,我們看到對於x的低值和高值,擬合值太小。這顯然是y的期望取決於exp(x)這一事實的結果,而我們使用的模型假設它是x的線性函式。

這個簡單的例子說明,儘管r平方是乙個重要的度量,但高值並不意味著我們的模型被正確指定。可以說,描述r平方的更好方法是「解釋變異」的度量。為了評估我們的模型是否正確指定,我們應該使用模型診斷技術,例如針對協變數的殘差圖或線性**器。

拓端tecdat R語言使用混合模型進行聚類

混合模型是k個分量分布的混合,它們共同形成混合分布 f x f x f x k 1 f x f x k 1k kfk x 讓我們通過乙個例子激發您為何使用混合模型的原因。讓我們說有人向您展示了以下密度圖 我們可以立即看到所得到的分布似乎是雙峰的 即有兩個凸起 表明這些資料可能來自兩個不同的 head...

拓端tecdat R語言t檢驗和非正態性的魯棒性

t檢驗是統計學中最常用的檢驗之一。雙樣本t檢驗允許我們基於來自兩組中的每一組的樣本來測試兩組的總體平均值相等的零假設。這在實踐中意味著什麼?如果我們的樣本量不是太小,如果我們的資料看起來違反了正常假設,我們就不應過分擔心。此外,出於同樣的原因,即使x不正常 同樣,當樣本量足夠大時 組均值差異的95 ...

拓端tecdat R語言旅行推銷員問題TSP

常用術語中的旅行推銷員問題 tsp 是最複雜的問題之一,歸結為組合優化。旅行到n個城市 頂點 需要檢查 n 1 可能性。3,000個地點有4 10 9131個可能的解決方案。以下 輸入您的tsp225.csv檔案並輸出您的解決方案和視覺化。生成的 tour 物件是一類tour和整數 它包含您的解決方...