python 偏態分布調整 如何處理偏態資料

2021-10-13 08:39:36 字數 828 閱讀 2487

在了解何為偏態資料前,要先從正態資料說起。

正態分佈

正態分佈是自然界中廣泛存在的,我們都知道它是兩頭低,中間高,整個形態呈現對稱鐘形的乙個分布,之所以叫正態分佈,是因為在大量連續資料測量的情況下,我們比較希望看到這種狀態,乙個標準的正態分佈是u(均值)=0,σ(標準差)=1。

從下圖可以看出,橫座標代表隨機變數x的乙個取值,在均值(u=0)附近概率密度最大,越偏離均值,概率密度減小,不在(u-3σ,u+3σ)範圍內的資料就屬於統計學意義上的異常值了。

偏態分布

但是現實生活中總是會存在不是正態分佈的情況,非正態分佈,那就是偏態分布了,有兩種,左偏(負偏態)和右偏(正偏態),可以用偏度來描述,偏度》0,則頻數分布的高峰向左偏移,呈右(正)偏態分布;偏度<0,則頻數分布的高峰向右偏移,呈左(負)偏態分布;|偏度|>1,呈高度偏態,0.5" />

偏態分布的資料如何處理

對於偏態分布的資料,我們需要做一些處理使其變換為正態分佈,常用的變換方式有對數變換:適用於相乘關係的資料、高度偏態的資料

平方根變換:適用於泊松分布(方差與均數近似相等)的資料、輕度偏態的資料

反正弦變換:適用於百分比的資料、中度偏態的資料

倒數變換1/x:適用於兩端波動較大的資料

記得上上小節泰坦尼克資料分析中的fare欄位嗎,從偏度可以看出是乙個很明顯的右偏分布的資料

繪製直方圖觀察也是如此,這時就可以使用對數變換。

雙擊縱座標,在彈出的【設定座標軸格式】中選擇對數刻度即可,比之前的右偏好多了。

總結1 偏態是針對正態而言的

2 描述偏態的有偏度係數這個指標

3 偏態資料通常轉換為正態分佈的資料,用的較多的轉換方式有對數和平方根

偏態分布(Skewed distribution)

頻數分布有正態分佈和偏態分布之分。正態分佈是指多數頻數集中在 位置,兩端的頻數分布大致對稱。偏態分布是指頻數分布不對稱,集中位置偏向一側。若集中位置偏向數值小的一側,稱為正偏態分布 集中位置偏向數值大的一側,稱為負偏態分布。如果頻數分布的高峰向左偏移,長尾向右側延伸稱為正偏態分布,也稱右偏態分布 同...

偏態分布(Skewed distribution)

頻數分布有正態分佈和偏態分布之分。正態分佈是指多數頻數集中在 位置,兩端的頻數分布大致對稱。偏態分布是指頻數分布不對稱,集中位置偏向一側。若集中位置偏向數值小的一側,稱為正偏態分布 集中位置偏向數值大的一側,稱為負偏態分布。如果頻數分布的高峰向左偏移,長尾向右側延伸稱為正偏態分布,也稱右偏態分布 同...

資料的偏態分布

頻數分布有正態分佈和偏態分布之分。正態分佈是指多數頻數集中在 位置,兩端的頻數分布大致對稱。統計資料峰值與平均值相等的頻率分布。偏態分布是指頻數分布不對稱,集中位置偏向一側。統計資料峰值與平均值不相等的頻率分布。若集中位置偏向數值小的一側,稱為正偏態分布 集中位置偏向數值大的一側,稱為負偏態分布。如...