今天我們來講一下異方差,在異方差以前,我們先講一下與異方差類似另乙個概念:同方差,那同方差又是什麼呢?同方差 = 相同 + 方差,顧名思義就是方差相同。那方差又是什麼呢?方差是用來反映資料的波動情況的,方差相同,說明資料的波動情況是相同的。講完了同方差,那什麼是異方差,大家應該也就明白了,異方差就是方差不相同。
為什麼要討論異方差呢,是因為我們在回歸分析和方差分析中都是假設樣本之間是同方差的。在方差分析中,同方差是各組之間的方差相等;在回歸分析中,同方差是指對於每乙個樣本點來說,隨機誤差的平方和(殘差平方和)是一樣的。我們在回歸部分給大家講過,殘差平方和是回歸值與實際值之間距離的平方和,這一部分是除了自變數x影響之外的其他影響因素造成的,所以我們把這一部分誤差叫做隨機誤差,如果不同樣本點之間受隨機誤差的影響是一樣的,則隨機誤差平方和就是一樣的,也就是同方差,反之則是異方差。
如下圖反映的就是同方差,也就是不同受教育年限群體之間工資波動情況是相同的。
下圖反映的就是異方差,也就是不同受教育年限群體之間工資波動是不同的,受教育年限越長,工資波動會越大;受教育年限越短,工資波動會越小。
了解完了什麼是異方差以後,我們來看一下如何看不同樣本點之間到底是同方差還是異方差呢?這就涉及到異方差的檢驗了。檢驗異方差有描述統計方法和專門的統計檢驗方法,我們這裡主要給大家分享一下描述統計方法——看殘差圖。
殘差圖是以殘差平方和為縱座標,一般以回歸擬合值y作為橫座標,當然也可以以其他自變數x作為橫座標,以下為幾種不同型別的殘差圖:
上面這種型別的殘差圖:隨著橫軸的變化,縱軸圍繞著一條水平線在波動,說明資料之間是滿足同方差性的。
上面這種型別的殘差圖:隨著橫軸的增大,縱軸的數值在變小,說明不同樣本之間點之間的方差是不一樣的,即異方差。
上面這種型別的殘差圖:橫軸和殘差之間是二次關係,也是異方差。
關於上面的殘差圖如何繪製,我們在後面的回歸實操部分給大家一起講解。
講講統計科學中的逐步回歸
前面我們講過了多元線性回歸。這一篇我們來講講逐步回歸。什麼是逐步回歸呢?就是字面意思,一步一步進行回歸。我們知道多元回歸中的元是指自變數,多元就是多個自變數,即多個x。這多個x中有乙個問題需要我們考慮,那就是是不是這多個x都對y有作用。答案就是有的時候都管用,有的時候部分管用。那對於那些沒用的部分我...
資料科學 什麼是資料科學?
資料是現實世界運轉留下的痕跡。這些痕跡如何展示出來,則取決於我們採用什麼樣的資料收集和樣本採集方法。將具象的資料轉化為抽象的資料,過程是絕對主觀的。統計推斷 關注的是如何從隨機過程產生的資料中提取資訊。關於建模資料即資訊,不需要模型,了解相關性就夠了。anderson 這是錯誤的想法。什麼是模型 模...
資料科學統計學 什麼是偏度?
作者 abhishek sharma 編譯 vk analytics vidhya 偏度的概念已融入我們的思維方式。當我們看到乙個影象時,我們的大腦會直觀地分辨出圖表中的模式。你可能已經知道,印度有超過50 的人口在25歲以下,65 以上的人口在35歲以下。如果你畫出印度人口年齡的分布圖,你會發現在...