偏度這一指標,又稱偏斜係數、偏態係數,是用來幫助判斷資料序列的分布規律性的指標。
在資料序列呈對稱分布(正態分佈)的狀態下,其均值、中位數和眾數重合。且在這三個數的兩側,其它所有的資料完全以對稱的方式左右分布。如果資料序列的分布不對稱,則均值、中位數和眾數必定分處不同的位置。這時,若以均值為參照點,則要麼位於均值左側的資料較多,稱之為右偏;要麼位於均值右側的資料較多,稱之為左偏;除此無它。
考慮到所有資料與均值之間的離差之和應為零這一約束,則當均值左側資料較多的時候,均值的右側必定存在數值較大的「離群」資料->右偏;同理,當均值右側資料較多的時候,均值的左側必定存在數值較小的「離群」資料->左偏。
一般將偏度定義為三階中心矩與標準差的三次冪之比。
在上述定義下,偏度係數的取值無非三種情景:
1.當資料序列呈正態分佈的時候,由於均值兩側的資料完全對稱分布,其三階中心矩必定為零,於是滿足正態分佈的資料序列的偏度係數必定等於零。
2.當資料序列非對稱分布的時候,如果均值的左側資料較多,則其右側的「離群」資料對三階中心矩的計算結果影響至巨大,乃至於三階中心矩取正值。因此,當資料的分布呈右偏的時候,其偏度係數將大於零。
3.當資料序列非對稱分布的時候,如果均值的右側資料較多,則其左側的「離群」資料對三階中心矩的計算結果影響至巨,乃至於三階中心矩取負值。因此,當資料的分布呈左偏的時候,偏度係數將小於零。
在右偏的分布中,由於大部分資料都在均值的左側,且均值的右側存在「離群」資料,這就使得分布曲線的右側出現乙個長長的拖尾;而在左偏的分布中,由於大部分資料都在均值的右側,且均值的左側存在「離群」資料,從而造成分布曲線的左側出現乙個長長的拖尾。
可見,在偏度係數的絕對值較大的時候,最有可能的含義是「離群」資料離群的程度很高(很大或很小),亦即分布曲線某側的拖尾很長。
但「拖尾很長」與「分布曲線很偏斜」不完全等價。例如,也不能排除在資料較少的那一側,只是多數資料的離差相對於另一側較大,但不存在明顯「離群」資料的情景。所以,為準確判斷分布函式的偏斜程度,最好的辦法是直接觀察分布曲線的幾何圖形。
與偏度(係數)一樣,峰度(係數)也是乙個用於評價資料系列分布特徵的指標。根據這兩個指標,我們可以判斷資料系列的分布是否滿足正態性,進而評價平均數指標的使用價值。一般地,對於乙個偏態分布、肥尾分布特徵很明顯的資料序列來說,平均數這個指標極易令人誤解資料序列分布的集中位置及其集中程度,故此使用起來要極其謹慎。
峰度(係數)等於資料序列的四階中心矩與標準差的四次冪之比。設若先將資料標準化,則峰度(係數)相當於標準化資料序列的四階中心矩。
顯然,乙個資料距離均值越遠,其對四階中心矩計算結果的影響越大。是故,峰度(係數)是乙個用於衡量離群資料離群度的指標。峰度(係數)越大,說明該資料系列中的極端值越多。這在資料序列的分布曲線圖中來看,體現為存在明顯的「肥尾」。當然,峰度(係數)較大也可能說明離群資料取值的極端性很嚴重,或者各資料距離均值的距離普遍較遠。可見,峰度(係數)的大小到底能說明什麼問題,最好還是看圖確定。
根據jensen不等式,可以確定出峰度(係數)的取值範圍:它的下限不會低於1,上限不會高於資料的個數。
有一些典型分布的峰度(係數)值得特別關注。例如,正態分佈的峰度(係數)為常數3,均勻分布的峰度(係數)為常數1.6。在統計實踐中,我們經常把這兩個典型的分布曲線作為評價樣本資料序列分布性態的參照。
在金融學中,峰度這個指標具有一定的意義。一項金融資產,設若其預期收益率的峰度較高,則說明該項資產的預期收益率有相對較高的概率取極端值。換句話說,該項資產未來行市發生劇烈波動的概率相對較高
偏度和峰度
偏度 skewness 就是分布不對稱的程度。正態分佈是完全對稱的,所以正態分佈的偏度為零。但是現實中很多分布是不對稱的,有的偏向左邊,有的偏向右邊,所以就用偏度來衡量分布偏離的程度。偏度是離群值 outliers 導致的。離群值是那些正數中特別大或者負數中特別小的值,也就是絕對值特別大的值。從名字...
峰度的意義 偏度和峰度
偏度 skewness 可以用來度量隨機變數概率分布的不對稱性。公式 其中 是均值,是標準差。計算例子 一組資料為1 2 2 4 1,均值為2,標準差約為1.22,所以偏度為 幾何意義 偏度的取值範圍為 當偏度 0時,概率分布圖左偏。當偏度 0時,表示資料相對均勻的分布在平均值兩側,不一定是絕對的對...
資料的偏度和峰度
我們一般會拿偏度和峰度來看資料的分布形態,而且一般會跟正態分佈做比較,我們把正態分佈的偏度和峰度都看做零。如果我們在實操中,算到偏度峰度不為0,即表明變數存在左偏右偏,或者是高頂平頂這麼一說。偏度是資料的不對稱程度。無論偏度值是 0 正數還是負數,都顯示有關資料分布形狀的資訊。圖 a 圖 b 對稱或...