要構建乙個多元線性回歸應該怎麼做呢?
莫慌,好好想想~
?
一堆琳琅滿目的資料
乙個個花樣百出的需求
一肚子「不合時宜」的數分能力
(愛情問題來的太快就像龍捲風)
?
無妨青馬與大家共同摸石頭過大河
「為了做一名合格的資料分析師
我要努力努力再努力」
明確需求
確定分析的物件,即確定因變數y
資料清洗
2.1 缺失值處理
(1)缺失值的刪除
(2)缺失值的填充(均值填充、眾數填充、特殊值填充、熱卡填充、聚類填充、極大似然估計等)
(3)缺失值作為一類特殊型別的資料,不刪除
2.2 異常值處理
3倍標準差以外的資料可視為異常值
處理方法:
(1)所有異常值填為均值
(2)把大於三倍標準差的資料填充為三倍標準差資料
2.3 分類變數
分類變數處理為one-hot編碼
相關分析
計算變數之間的相關係數
繪製散點圖
分割測試集、訓練集
一般選擇70%為訓練集 30%為測試集
回歸模型(初步訓練)
得到模型的殘差
為後續的高斯馬爾科夫檢驗做準備
5.1 f檢驗
f檢驗,檢驗所有自變數前面的係數是不是都是0
檢驗模型是不是符合要求,如果不滿足要求,則需要進行模型的重新設定
5.2 t檢驗
t檢驗,檢驗每乙個自變數的回歸係數是不是0
如果存在不符合要求的自變數,需要對其進行處理
5.3 r^2
度量的模型的解釋能力,太高或者太低都不能滿足模型的要求
太低,表示模型的解釋能力有問題
太高,表示模型過擬合(自變數與因變數的相關性...)
5.4 貝塔係數的正負號(如果有需要的話)
判斷有些自變數與因變數之間的符號是不是符合預期假設
模型調優
科學理論表明:只要模型資料滿足高斯馬爾科夫假設,則模型就是線形無偏,即是最優的。
調優的方法:
(1)係數貝塔必須是線形的
(2)殘差不能出現序列相關性
高弗雷假設 h0:無序列相關
dw檢驗
(3)自變數之間不能出現太高的共線性(vif)
vif值較高時的處理方法:
(a)對x取自然對數
(b)主成分分析
(c)嶺回歸/lasso
(4)殘差不會出現內生性
常用解決內生性問題的方法:工具變數
(5)殘差的同方差性
bp檢驗
white檢驗
處理方法:
(a)對因變數y取自然對數
(b)加權最小二乘法
(6)殘差的正態性
q-q圖
sw檢驗
主要用於樣本數小於5000的檢驗
ks檢驗
主要用於樣本數大於5000的檢驗
處理方法:
對因變數y去自然對數,可以很有效地消除殘差的正態性
模型再優化
(1)增加 高次項
(2)增加 互動項
(3)增加 時間趨勢
(4)增加 季節趨勢
逐步回歸
有助於變數的篩選
按自變數與因變數之間的相關係數進行變數排序
交叉驗證
目的是為了得到可靠穩定的模型
模型測試
vecm模型怎麼寫係數 建立多元線形回歸模型的步驟
要構建乙個多元線性回歸應該怎麼做呢?莫慌,好好想想 一堆琳琅滿目的資料 乙個個花樣百出的需求 一肚子 不合時宜 的數分能力 愛情問題來的太快就像龍捲風 無妨青馬與大家共同摸石頭過大河 為了做一名合格的資料分析師 我要努力努力再努力 明確需求 確定分析的物件,即確定因變數y 資料清洗 2.1 缺失值處...
邏輯回歸模型建立
import pandas as pd import seaborn as sns import matplotlib.pyplot as plt matplotlib inline 載入資料 churn pd.read csv w4 churn.csv 將資料集中的類別變數轉化為數字型變數 chu...
建立用例模型的步驟
一般來說,建立用例模型的步驟為 1 確定誰會直接使用該系統,即參與者 actor 為了發現參與者,我們可以嘗試問如下問題 a.誰 什麼使用系統?b.誰 什麼從系統獲得資訊?c.誰 什麼向系統提供資訊?d.誰 什麼支援 維護系統?e.哪些其它系統使用此系統?f.公司的哪個部門使用系統?2 選取其中乙個...