前面我們講過了多元線性回歸。這一篇我們來講講逐步回歸。什麼是逐步回歸呢?就是字面意思,一步一步進行回歸。
我們知道多元回歸中的元是指自變數,多元就是多個自變數,即多個x。這多個x中有乙個問題需要我們考慮,那就是是不是這多個x都對y有作用。答案就是有的時候都管用,有的時候部分管用。那對於那些沒用的部分我們最好是不讓它加入到回歸模型裡面。我們把這個篩選起作用的變數或者剔除不起作用變數的過程叫做變數選擇。
我們剛提到自變數有用沒用,那怎麼來評判乙個自變數到底有用沒用呢?判斷依據就是對自變數進行顯著性檢驗。具體方法是將乙個自變數加入到模型中時,有沒有使殘差平方和顯著減少,如果有顯著減少則說明這個變數是有用的,可以把這個變數加入到模型中,否則說明時無用的,就可以把這個變數從模型中刪除。有沒有顯著減少的判斷標準就是根據f統計量來判斷。
關於判斷f統計量的顯著性我們在方差分析裡面講過,大家可以去看看。
變數選擇主要有:向前選擇、向後踢出、逐步回歸、最優子集等,我們這一篇主要講前三種。
向前選擇可以理解成從零開始選擇,因為模型最開始的時候是沒有自變數的,具體的步驟如下:
step1:拿現有的k個變數分別和y建立回歸模型,最後會得到k個模型以及每個模型中變數對應的f統計量和其p_value,然後從顯著的模型中挑選出f統計量最大模型對應的自變數,將該自變數加入到模型中,如果k個模型都不顯著,則選擇結束。
step2:通過第一步我們已經得到了乙個顯著性變數,並把這個變數加入到了模型中。接下來再在已經加入乙個變數的模型裡面繼續分別加入剩下的變數,能夠得到k-1個模型,然後在這k-1個模型裡面挑選f值最大且顯著的變數繼續加入模型。如果沒有顯著變數,則選擇結束。
重複執行上面兩步,直到沒有顯著性變數可以加入到模型為止,這就是向前選擇。
向後剔除是與向前選擇相對應的方法,是向前選擇的逆方法,具體的步驟如下:
step1:將所有的自變數都加入到模型中,建立乙個包含k個自變數的回歸模型。然後分別去掉每乙個自變數以後得到k個包含k-1個變數的模型,比較這k個模型,看去掉哪個變數以後讓模型的殘差平方和減少的最少,即影響最小的變數,就把這個變數從模型中刪除。
step2:通過第一步我們已經刪除了乙個無用的變數,第二步是在已經刪除乙個變數的基礎上,繼續分別刪除剩下的變數,把使模型殘差平方和減少最小的自變數從模型中刪除。
重複上面的兩個步驟,直到刪除乙個自變數以後不會使殘差顯著減少為止。這個時候,留下來的變數就都是顯著的了。
逐步回歸是向前選擇和向後踢除兩種方法的結合。是這兩種方法的交叉進行,即一遍選擇,一邊剔除。
逐步回歸在每次往模型中增加變數時用的是向前選擇,將f統計量最大的變數加入到模型中,將變數加入到模型中以後,針對目前模型中存在的所有變數進行向後剔除,一直迴圈選擇和剔除的過程,直到最後增加變數不能夠導致殘差平方和變小為止。
關於逐步回歸的python實現,網上有很多現成**的,只要原理清楚了,**就很好懂了。
python逐步回歸法 逐步回歸的快速實現
forward selection,which involves starting with no variables in the model,testing the addition of each variable using a chosen model comparison criteri...
逐步回歸法的基本步驟 逐步回歸法介紹及應用
一 逐步回歸法介紹 逐步回歸的基本思想是通過剔除變數中不太重要又和其他變數高度相關的變數,降低多重共線性程度。將變數逐個引入模型,每引入乙個解釋變數後都要進行f檢驗,並對已經選入的解釋變數逐個進行t檢驗,當原來引入的解釋變數由於後面解釋變數的引入變得不再顯著時,則將其刪除,以確保每次引入新的變數之前...
逐步回歸法的基本步驟 高壓電纜故障測試的基本步驟
高壓電纜故障測試的基本步驟 電纜故障測試的基本步驟 一般來說,按以下步驟測試 1 搞清楚故障產生的原因及電纜基本情況,例如是執行產生故障還是預試產生故障,是新電纜還是執行時間很長的電纜,電纜的大概長度,電纜中間有沒有接頭,電纜以前有沒有出現過故障,電纜是直埋還是在電纜溝鋪設,以及電纜型別等等。2 一...