vecm模型怎麼寫係數 建立多元線形回歸模型的步驟

2021-10-13 19:46:23 字數 2244 閱讀 4864

要構建乙個多元線性回歸應該怎麼做呢?

莫慌,好好想想~

?

一堆琳琅滿目的資料

乙個個花樣百出的需求

一肚子「不合時宜」的數分能力

(愛情問題來的太快就像龍捲風)

?

無妨青馬與大家共同摸石頭過大河

「為了做一名合格的資料分析師

我要努力努力再努力」

明確需求

確定分析的物件,即確定因變數y

資料清洗

2.1   缺失值處理

(1)缺失值的刪除

(2)缺失值的填充(均值填充、眾數填充、特殊值填充、熱卡填充、聚類填充、極大似然估計等)

(3)缺失值作為一類特殊型別的資料,不刪除

2.2  異常值處理

3倍標準差以外的資料可視為異常值

處理方法:

(1)所有異常值填為均值

(2)把大於三倍標準差的資料填充為三倍標準差資料

2.3  分類變數

分類變數處理為one-hot編碼

相關分析

計算變數之間的相關係數

繪製散點圖

分割測試集、訓練集

一般選擇70%為訓練集  30%為測試集

回歸模型(初步訓練)

得到模型的殘差

為後續的高斯馬爾科夫檢驗做準備

5.1  f檢驗

f檢驗,檢驗所有自變數前面的係數是不是都是0

檢驗模型是不是符合要求,如果不滿足要求,則需要進行模型的重新設定

5.2  t檢驗

t檢驗,檢驗每乙個自變數的回歸係數是不是0

如果存在不符合要求的自變數,需要對其進行處理

5.3  r^2

度量的模型的解釋能力,太高或者太低都不能滿足模型的要求

太低,表示模型的解釋能力有問題

太高,表示模型過擬合(自變數與因變數的相關性...)

5.4  貝塔係數的正負號(如果有需要的話)

判斷有些自變數與因變數之間的符號是不是符合預期假設

模型調優

科學理論表明:只要模型資料滿足高斯馬爾科夫假設,則模型就是線形無偏,即是最優的。

調優的方法:

(1)係數貝塔必須是線形的

(2)殘差不能出現序列相關性

高弗雷假設 h0:無序列相關

dw檢驗

(3)自變數之間不能出現太高的共線性(vif)

vif值較高時的處理方法:

(a)對x取自然對數

(b)主成分分析

(c)嶺回歸/lasso

(4)殘差不會出現內生性

常用解決內生性問題的方法:工具變數

(5)殘差的同方差性

bp檢驗

white檢驗  

處理方法:

(a)對因變數y取自然對數 

(b)加權最小二乘法

(6)殘差的正態性

q-q圖 

sw檢驗  

主要用於樣本數小於5000的檢驗  

ks檢驗   

主要用於樣本數大於5000的檢驗 

處理方法: 

對因變數y去自然對數,可以很有效地消除殘差的正態性

模型再優化

(1)增加 高次項

(2)增加 互動項

(3)增加 時間趨勢

(4)增加 季節趨勢

逐步回歸

有助於變數的篩選

按自變數與因變數之間的相關係數進行變數排序

交叉驗證

目的是為了得到可靠穩定的模型

模型測試

MATLAB求解模型待定係數

在進行方程待定係數求解時,matlab提供了多種解決方案。常用 的有 矩陣左除 超定方程求解 轉換為線性回歸 曲線擬合 非線性回歸等方法。這裡以求解如下方程係數為例 a p vs,v w,fn cv s vw fn rc 2a p v s,v w,f n c frac alpha beta ap v...

關係資料模型

一 資料結構 關係資料模型是有若干個關係模式組成的集合。關係模式的例項成為關係。每個關係可看為乙個二維表,表的行稱為元組,用來標識實體集中的乙個實體 表的列稱為屬性,列名即為屬性名,屬性名不能相同。關係的描述稱為關係模式 relation schema 它可以形式化地表示為 r u,d,dom,f ...

「駱駝」怎麼寫

jelly是某大學計算機專業的學生,平時愛敲敲 上課卻不認真聽講。這不期末考試了,考英語的時候急得滿頭大汗。心想 平時整天敲那麼多字母,這英語咋就沒長進呢。看著最後一道作文題 請以 沙漠之舟 駱駝為題寫100詞左右。jelly想,沙漠之舟,沙漠之舟,a a boat of the the deser...