可決係數(coefficient of determination)
如果樣本回歸線對樣本觀測值擬合程度越好,各樣本觀測點與回歸線靠得越近,由樣本回歸做出解釋的離差平方和與總離差平方和越相近;反之,擬合程度越差,相差越大。
可決係數的計算式:
可決係數可以作為綜合度量回歸模型對樣本觀測值擬合優度的度量指標。
可決係數是測定多個變數間相關關係密切程度的統計分析指標,它也是反映多個自變數對因變數的影響程度。可決係數越大,自變數對因變數的解釋程度越高,自變數引起的變動佔總變動的百分比高。觀察點在回歸直線附近越密集。可決係數的取值範圍在0到1之間,它是乙個非負統計量。隨著抽樣的不同而不同,既是隨樣本而變動的統計量。
擬合優度
擬合優度(goodness of fit)是指回歸直線對觀測值的擬合程度。
度量擬合優度的統計量是可決係數(亦稱確定係數)r。
r的取值範圍是[0,1]。r的值越接近1,說明回歸直線對觀測值的擬合程度越好;反之,r的值越接近0,說明回歸直線對觀測值的擬合程度越差。
r衡量的是回歸方程整體的擬合度,是表達因變數與所有自變數之間的總體關係。r等於回歸平方和在總平方和總所佔的比率,即回歸方程所能解釋的因變數變異性的百分比。實際值與平均值的總誤差中,回歸誤差與剩餘誤差是此消彼長的關係。因而回歸誤差從正面測定線性模型的擬合優度,剩餘誤差則從反面來判定線性模型的擬合優度。
統計上定義剩餘誤差除以自由度n – 2所得之商的平方根為估計標準誤。為回歸模型擬合優度的判斷和評價指標,估計標準誤顯然不如判定係數r。r 是無量綱係數,有確定的取值範圍 (0—1),便於對不同資料回歸模型擬合優度進行比較;而估計標準誤差是有計量單位的,又沒有確定的取值範圍,不便於對不同資料回歸模型擬合優度進行比較。
主要是運用判定係數和回歸標準差,檢驗模型對樣本觀測值的擬合程度。
當解釋變數為多元時,要使用調整的擬合優度,以解決變數元素增加對擬合優度的影響。
擬合優度檢驗是檢驗來自總體中的一類資料其分布是否與某種理論分布相一致的統計方法。 eg. 乙個總體可分為r類,現從該總體獲得了一批分類資料,現在需要我們從這些分類資料中出發,去判斷總體各類出現的概率是否與已知的概率相符。譬如要檢驗一顆骰子是否是均勻的,那麼可以將該骰子拋擲若干次,記錄每一面出現的次數,從這些資料出發去檢驗各面出現的概率是否都是1/6.
資料探勘之擬合優度檢驗
本部落格根據非常好的excel資料而編寫,使用python語言操作,預計使用一周的時間更新完成。需要 非常好的excel資料 word文件,歡迎發郵件給1982500361 qq.com,免費發放。這篇部落格對應 非常好的excel資料 裡的第4章節。資料 python 如下 def lilunpi...
回歸方程的擬合優度檢驗 別錯過,卡方檢驗實用總結!
通常情況下,卡方檢驗是研究分類資料與分類資料之間關係的分析方法,如性別和是否戴 眼鏡之間的關係。卡方檢驗通常會涉及卡方值和p值兩個名詞術語。卡方值與p值有對應關係,p值小於0.05則說明有差異存在,即性別與是否戴 眼鏡之間有聯絡。在具體差異分析的基礎上,進一步分析不同性別樣本戴 眼鏡的百分比,例如,...
卡方分布 卡方分布與擬合優度的卡方檢驗是什麼關係?
在分類資料擬合優度的 該統計量 服從 的 分布。其中,為某分類實際頻數,為零假設中的期望頻數,為分類類別的數量。對於分類資料的擬合優度 檢驗,很多統計教科書介紹完上面這些就結束了。但相信初學者,尤其是非統計專業的初學者會和我一樣,都存在乙個疑問,式1中的檢驗統計量 為什麼會服從 分布呢?這個疑問非常...