5 spss做加權最小二乘回歸及嶺回歸

2021-07-01 19:54:22 字數 2738 閱讀 3255

上一節我們講到一般多元線性回歸的操作方法。本節要介紹的是多元線性回歸的其他幾種情況。包括適用於含有加權變數的加權最小二乘回歸方程等。然後繼續討論上一節中沒有討論完畢的如何解決多重共線性這個問題。

講加權最小二乘回歸之前,我們首先還是舉個例子。假設我們想考察全國三十乙個省的某種疾病的發病率和每個省的面積,平均氣溫等的關係,那麼我們知道,這三十乙個省的人口肯定是不同的。而且差距還蠻大。並且最重要的,我們知道,發病率的高低很可能和人口的多少有關係(考慮傳染性,人口密度什麼的),那麼這個時候我們直接用最小二乘回歸就不是那麼合適了,我們更好的選擇是加權最小二乘回歸法。也就是說,當樣本和某乙個權數存在某種關係的時候,我們就用加權最小二乘回歸。

解釋結果的時候也和一般線性回歸類似,只是有乙個小小的地方需要大家注意一下。我們知道,模型彙總表裡邊的決定係數是乙個比較重要的參考資料。它會告訴你你的方程能解釋你的模型的百分之多少,從而從側面考察了你的方程的合理性。但是不幸的是,這個決定係數在加權線性回歸裡邊出現了比較嚴重的偏差。這個和決定係數的計算方法有關係。因此假如我們用同樣的資料做一遍加權的回歸,和一遍不加權的回歸,往往會發現不加權的方程決定係數大於加權的。但是這個並不能代表不加權的方程就一定比加權後的準確。實際上加權以後的模型和不加權的模型到底孰優孰劣,好的那個方程又能好多少,這些問題spss都不能給出直接的資料。因此在使用加權最小二乘回歸的時候應當格外謹慎。

此外,由於有時候權重並不特別明確,(比如上邊那個金融的案例),這時候可以使用分析——回歸——權重估計這個選項。這個選項的主面板和回歸分析主面板類似,自變數,因變數,權重。變數選擇的方法和上邊的加權回歸也類似。這個方法也需要你事先給出乙個大概的權重變數,然後系統會做一定的調整來使方程達到最佳效果。結果解釋等也類似,就不贅述了。

除了加權回歸以外,還有乙個比較特別的線性回歸是曲線引數估計。

如果你的線性模型擬合的不是那麼理想,那麼你的模型很可能就是曲線型的(尤其是你有兩個變數的時候,線性模型有時候會非常糟糕)。需要開啟分析——回歸——曲線估計,選擇你的因變數,自變數。此外下邊還有十一種模型供你選擇。選好以後,結果會給出每種模型的決定係數,f值,p值,你可以從這些資料中判斷哪個方程最適合你的模型。

當然,這個不會給出你非常詳細的資料。如果你還想要看更詳細的資料,比如方程中每個引數的p值什麼的,你最好還是用線性回歸做一下。啊,當然,當然,你的資料肯定是沒辦法直接做線性回歸的,不然也就不用做曲線估計了。你需要首先轉換你的資料。舉個例子:y=x1^2*a1+x2^2*a2……,假設你的模型做出來符合這種形式。那你首先要在資料——計算新變數裡邊,計算出新變數x1的方,x2的方,然後在做這兩個新變數和因變數的一般線性回歸。當然,如果你想要在方程的自變數裡在加乙個x1和x2的積,你也可以這麼加上去。

那麼除了logistic回歸以外,線性回歸的內容基本就完畢了。下邊我們繼續討論乙個問題:如何消除自變數間的共線性?

上一節裡邊提到,如果vif(方差因子膨脹率)合格,而dw不合格的話,我們可以使用廣義差分法來改善dw,得到好的模型。那這一節,我們就來討論一下vif不合格的情況。我們已經知道,如果vif不合格的話,說明自變數存在嚴重的共線性。在回歸的範疇裡邊,通常有三種方法可以解決這個問題。他們分別是偏最小平方回歸,嶺回歸,路徑分析。

include』d:\spss20.0\ridge regression.sps』.

ridgereg enter=x1 x2 x3

/dep=y

諾,就這麼三行。第一行單引號裡邊填寫你的spss安裝目錄。比如我的按在d盤下面,所以我就填d:\spss20.0,如果你的按在c盤,那就填c盤唄。然後目錄後邊那個ridge regression,是最小二乘平方的巨集的呼叫。然後第二行x1,x2,x3的位置填寫你的自變數的名字。有幾個就填幾個。中間用空格隔開。第三行y的位置填你的因變數。執行的時候,開啟檔案——新建——語法,進入語法編輯器視窗,輸入上邊的**,然後點執行——全部就可以了。結果會有乙個係數表,這個表的第一列是k值,第二列是決定係數,第三列往後是你的自變數。其中k值會從0開始增大,同時決定係數也會慢慢變小,最終趨於穩定。(嶺回歸捨棄了一定的資訊,從而改善了多重共線性)要從這張表裡邊選取合適的k值,使決定係數盡量大,同時盡量穩定。選好k值就可以參照係數寫出方程了。此外在嶺回歸裡邊是不會輸出常數的。這也是和一般回歸方法的乙個不同之處。

嶺回歸和偏最小平方回歸比較而言,嶺回歸的優勢在於容易操作。偏最小平方回歸的優勢在於可以用於例數很少的情況。如果例數很少,自變數又很多,甚至例數都少於自變數的數目,那麼就一定要用偏最小平方回歸了。額,通常在金融領域不會發生這種情況,但是在一些特殊的領域,醫學啊什麼的,則是有可能發生的。因此在某種程度上來講,偏最小平方回歸是給特殊需要的人使用的。

最後補充介紹一下路徑分析。如果說前邊兩種方法都是從過程中實現的話,那麼路徑分析就是從專業角度來刻畫方程了。舉個例子,比如你想看看一朵鮮花的開放時間和陽光強度,空氣濕度,空氣溫度,日照時間等等的關係,做出分析來一看,存在共線性。如果你是專業人員,那麼很可能你就知道,由於空氣溫度受到陽光強度,和日照時間的影響,所以你的方程就存在了共線性。所以呢,你就能寫出乙個空氣溫度,陽光強度,日照時間之間的乙個回歸方程。然後你就能畫出乙個路徑圖,代表陽光強度的圈圈不僅直接影響了花朵開放時間,而且還影響了空氣溫度,從而間接影響了花朵開放時間,並且你還能寫出彼此之間的影響係數。這就是路徑分析的主要內容。

當然路徑分析需要有專業知識的人來做。並且呢,通常需要經過許多嘗試,才能正確的寫出因變數和自變數之間的方程。而且,最重要的是,路徑分析只能幫助我們搞清楚自變數之間到底存在怎麼樣的共線性,對於矯正方程沒有什麼作用。也就是說,方程的決定係數可能依然很糟糕。所以它更多的是用來做演示圖或者什麼的,對於改善多重共線性真的沒什麼用。

解決多重共線性的常見方法可以告一段落了。在非線性回歸,分類回歸之後我們介紹因子分析時將會舊話重提,再次討論多重共線性的問題。

最小二乘 加權最小二乘 matlab實現

最小二乘 最小二乘法 又稱最小平方法 是一種數學優化技術。它通過最小化誤差的平方和尋找資料的最佳函式匹配。利用最小二乘法可以簡便地求得未知的資料,並使得這些求得的資料與實際資料之間誤差的平方和為最小 最小二乘法還可用於曲線擬合,其他一些優化問題也可通過最小化能量或最大化熵用最小二乘法來表達。加權最小...

最小二乘和加權最小二乘的原理與實現

已知有一組資料,在座標系中表示成一組點集n。現在的目標是估計出一條經過點集n的直線,要求直線滿足一定的準則。不同的準則最後定義不同的優化方法,這裡我們通過定義兩種不 同的準則,來引出最小二乘和加權最小二乘的介紹。首先回到直線擬合的這個問題中來。一般假設點集n中的點是通過對直線進行取樣獲得,通常 取樣...

加權最小二乘回歸方法的程式實現範例

加權最小二乘回歸方法 程式範例 在一般的線性回歸求相關係數時候,大都選擇最小二乘回歸分析方法來擬合。它的原理是 假設擬合方程為 a0 yi n a1 xi n,a1 n xi yi xi yi n xi 2 xi 2 或者用最小二乘公式推理如下 x x平 y y平 xy x 平y xy平 x 平y平...