如何為單變數模型選擇最佳的回歸函式

2021-08-13 22:46:02 字數 2103 閱讀 1228

本文介紹了為單變數模型選擇回歸函式時需要參考的重要指標,有助於快速調整引數和評估回歸模型的效能。

我該如何確定最適合我的資料的模型?只要看 r²、sse 等資料嗎?可是由於模型不同,因此對模型的解釋(平方、根等)也會不同,這不是個問題嗎?
問題的第二部分很容易回答。首先,找到最適合資料的模型,然後解釋其結果。如果你知道模型解釋資料的方式會很有幫助。

本文的其餘部分將解決前面提到問題的第一部分。請注意,我將分享我選擇模型的方法。模型的選擇有多種方式,可能會有其他不同的方法,但我描述的是最適合我的方式。

如果只使用乙個輸入變數,則調整後的 r2 值可以指出模型的執**況。它說明了你的模型解釋了多少(y 的)變化。

與簡單的 r2 相比,調整後的 r2 考慮了輸入因素的數量。調整後的 r2 懲罰了很多輸入因素,傾向於得到簡潔的模型。

在上面的截圖中,可以看到兩個模型的 r2 值分別為 71.3% 和 84.32%。顯然,第二種比第一種好。然而,r2 值較低的模型仍然有用,因為調整後的 r2 對資料中的雜訊非常敏感。因此,只需要比較相同資料集應用在不同模型的指標,無需在不同資料集間進行比較。

通常情況下,很少用到 sse

在閱讀這一部分之前,我們先明確 sse 的含義。在此,sse 指的是平方誤差的總和(sum of squared errors)。

因此,調整後的 r2 約為 1-sse/sst。sst 指平方總和。

這裡不打算深入講述數學原理。我想說明的是調整後的 r2 是用 sse 計算的。所以 sse 通常不會給出任何附加資訊。

此外,調整後的 r2 進行了歸一化,使得它總是在零到一之間。這一操作使得人們更容易對不熟悉的模型進行解釋,例如,調整後的 r2 等於 75% 比 sse 等於 398 更容易解釋模型,儘管這兩個量可以解釋相同的模型。

誤差項,或所謂的殘差項常常被忽略。通常它們包含的資訊比你想象的更多。

殘差是**值和實際值之間的差異。

殘差的作用在於告訴你誤差的大小和方向。我們來看乙個例子:

我們不希望殘差在零的附近變化

我在此試圖用線性函式對乙個多項式資料集進行**。對殘差進行分析,可以顯示模型的偏差是向上的還是向下的。

當 50 < x < 100 時,殘差值大於零。所以在這個範圍內,實際值高於**值,也就是說模型偏差是向下的。

然而當 100 < x < 150 時,殘差小於零。因此,實際值低於**值,就是說模型偏差是向上的。

知道模型偏差很有幫助,通常人們都不會想要上述的模式。

殘差的平均值應該為零,而且還應該是均勻分布的。使用三次多項式函式對相同的資料集進行**可以獲得更好的擬合結果:

殘差均勻分布在零值周圍意味著擬合效果更好。

此外,還可以觀察誤差項的方差是否增加。在統計學中,這被稱為異方差(heteroscedasticity),可以使用穩健標準差(robust standard errors)對其進行修正,否則,你的假設檢驗可能是錯誤的。

最後,用直方圖總結誤差項的分布(頻率 vs. 殘差)。直方圖提供有關誤差頻寬的資訊,還可以指出誤差的出現頻率。

右邊的直方圖表明誤差頻寬比左邊直方圖的小,所以從上圖看來右邊模型的擬合效果更好。

上圖顯示了在兩個不同的模型上使用相同的資料集進行**的殘差分布。在左邊的直方圖中,誤差分布在 -338 到 520 的範圍內。

在右邊的直方圖中,誤差分布在 -293 到 401 之間。所以異常值要低得多。而且,右邊直方圖的模型中大部分誤差都接近零。所以我更支援使用右邊的模型。

當選擇乙個線性模型時,要考慮以下幾點:

單變數線性回歸模型

擬合函式 h x theta theta x x x x x 訓練集 h h h h 訓練集 共m個樣本 參考知乎 值與實際值差的平方和的最小值 取值才能讓這條直線最佳地擬合這些資料呢?這就是代價函式登場的時刻了 j left theta theta right frac sum left hat ...

2 1單變數線性回歸模型表示

首先舉乙個 住房 的例子,其中使用的資料集為某市住房尺寸及對應的 如果一間住房面積為1250平方尺,這間住房能賣多少錢?那麼,第一件事就是構建乙個模型,也許是條直線,從這個資料模型上看,大約能以220000 美元 左右的 賣掉這間房子。這就是監督學習演算法的乙個例子。它被稱作監督學習是因為對於每個資...

如何為電源選擇正確的工作頻率

中心議題 為電源選擇正確的工作頻率的方法 解決方案 更高的工作頻率可縮小電感體積 使用更低的電容值或更少的電容 為您的電源選擇最佳的工作頻率是乙個複雜的權衡過程,其中包括尺寸 效率以及成本。通常來說,低頻率設計往往是最為高效的,但是其尺寸最大且成本也最高。雖然調高頻率可以縮小尺寸並降低成本,但會增加...