要構建乙個多元線性回歸應該怎麼做呢?
莫慌,好好想想~
?
一堆琳琅滿目的資料
乙個個花樣百出的需求
一肚子「不合時宜」的數分能力
(愛情問題來的太快就像龍捲風)
?
無妨青馬與大家共同摸石頭過大河
「為了做一名合格的資料分析師
我要努力努力再努力」
明確需求
確定分析的物件,即確定因變數y
資料清洗
2.1 缺失值處理
(1)缺失值的刪除
(2)缺失值的填充(均值填充、眾數填充、特殊值填充、熱卡填充、聚類填充、極大似然估計等)
(3)缺失值作為一類特殊型別的資料,不刪除
2.2 異常值處理
3倍標準差以外的資料可視為異常值
處理方法:
(1)所有異常值填為均值
(2)把大於三倍標準差的資料填充為三倍標準差資料
2.3 分類變數
分類變數處理為one-hot編碼
相關分析
計算變數之間的相關係數
繪製散點圖
分割測試集、訓練集
一般選擇70%為訓練集 30%為測試集
回歸模型(初步訓練)
得到模型的殘差
為後續的高斯馬爾科夫檢驗做準備
5.1 f檢驗
f檢驗,檢驗所有自變數前面的係數是不是都是0
檢驗模型是不是符合要求,如果不滿足要求,則需要進行模型的重新設定
5.2 t檢驗
t檢驗,檢驗每乙個自變數的回歸係數是不是0
如果存在不符合要求的自變數,需要對其進行處理
5.3 r^2
度量的模型的解釋能力,太高或者太低都不能滿足模型的要求
太低,表示模型的解釋能力有問題
太高,表示模型過擬合(自變數與因變數的相關性...)
5.4 貝塔係數的正負號(如果有需要的話)
判斷有些自變數與因變數之間的符號是不是符合預期假設
模型調優
科學理論表明:只要模型資料滿足高斯馬爾科夫假設,則模型就是線形無偏,即是最優的。
調優的方法:
(1)係數貝塔必須是線形的
(2)殘差不能出現序列相關性
高弗雷假設 h0:無序列相關
dw檢驗
(3)自變數之間不能出現太高的共線性(vif)
vif值較高時的處理方法:
(a)對x取自然對數
(b)主成分分析
(c)嶺回歸/lasso
(4)殘差不會出現內生性
常用解決內生性問題的方法:工具變數
(5)殘差的同方差性
bp檢驗
white檢驗
處理方法:
(a)對因變數y取自然對數
(b)加權最小二乘法
(6)殘差的正態性
q-q圖
sw檢驗
主要用於樣本數小於5000的檢驗
ks檢驗
主要用於樣本數大於5000的檢驗
處理方法:
對因變數y去自然對數,可以很有效地消除殘差的正態性
模型再優化
(1)增加 高次項
(2)增加 互動項
(3)增加 時間趨勢
(4)增加 季節趨勢
逐步回歸
有助於變數的篩選
按自變數與因變數之間的相關係數進行變數排序
交叉驗證
目的是為了得到可靠穩定的模型
模型測試
MATLAB求解模型待定係數
在進行方程待定係數求解時,matlab提供了多種解決方案。常用 的有 矩陣左除 超定方程求解 轉換為線性回歸 曲線擬合 非線性回歸等方法。這裡以求解如下方程係數為例 a p vs,v w,fn cv s vw fn rc 2a p v s,v w,f n c frac alpha beta ap v...
關係資料模型
一 資料結構 關係資料模型是有若干個關係模式組成的集合。關係模式的例項成為關係。每個關係可看為乙個二維表,表的行稱為元組,用來標識實體集中的乙個實體 表的列稱為屬性,列名即為屬性名,屬性名不能相同。關係的描述稱為關係模式 relation schema 它可以形式化地表示為 r u,d,dom,f ...
「駱駝」怎麼寫
jelly是某大學計算機專業的學生,平時愛敲敲 上課卻不認真聽講。這不期末考試了,考英語的時候急得滿頭大汗。心想 平時整天敲那麼多字母,這英語咋就沒長進呢。看著最後一道作文題 請以 沙漠之舟 駱駝為題寫100詞左右。jelly想,沙漠之舟,沙漠之舟,a a boat of the the deser...