python 偏態分布 統計科學之你到底偏哪邊的?

2021-10-18 14:01:09 字數 1181 閱讀 5233

這張圖中的橫軸是隨機變數 x 的具體值,正態分佈的中心點是隨機變數 x 的均值 μ,以均值為中心,然後向兩邊擴散,既然是均值,那肯定就有比均值大的值,也有比均值小的點,我們用標準差 σ 表示資料集的離散程度,也就是距離均值 μ 的遠近。

縱軸是 x 對應的概率密度。我們應該都知道概率,是用來表示乙個值或一種情況出現的可能性大小。而概率密度等於一段區間(隨機變數 x 的取值範圍)的概率除以該段區間的長度。

橫軸與縱軸圍成的面積表示橫軸 x 對應的這個區間出現的概率。

x 軸標記出了 7 個點,分別為:μ、u+σ、u-σ、u+2σ、u-2σ、u+3σ、u-3σ,即距離均值1倍、2倍、3倍、3倍以上標準差的距離。

可以看到有64.2%(34.1+34.1)的資料集中在(u-σ,u+σ)之間,有27.2%的資料位於(u±σ,u±2σ)之間,有4.2%的資料位於(u±2σ,u±3σ),剩下的就是(u±3σ,∞)。說明大部分資料還是集中在平均值附近的,而我們生活中的很多事情都是符合正態分佈的,這也就是為什麼可以用平均值來代替整體水平的乙個原因,比如平均身高、平均工資等等。

雖然大多數情況下資料是正態分佈的,但是也有不是正態分佈的情況,這個時候就是偏態分布了,偏態分布有兩種,左偏和右偏。長尾在哪邊就是哪篇,下面第一張圖的長尾在左邊就是左偏,最後一張圖的長尾在右邊就是右偏。

如果是左偏,說明大多數是集中在右邊的,即眾數 > 中位數 > 均值;如果是右偏,說明大多數是集中在左邊的,即眾數 < 中位數 < 均值。

我們可以用偏態係數來衡量具體的偏離程度,偏態係數大於0則右偏,小於0則左偏,值越大越偏。

在 python 中要計算某一列的偏態係數可以使用如下**:#計算col列的偏態係數

df["col"].skew()

因為現實中很多資料是符合正態分佈的,很多模型也都是假設資料是服從正太分布的,比如方差分析中,就是假設資料是服從正態分佈的。如果你的資料是偏態分布的時候,這個時候可以對資料進行轉換,從偏態資料轉換成正態資料,常見的轉換就是原始資料取對數。

在 python 中可以使用下面**對資料取對數。#對x取對數

import math

math.log( x )

偏態分布(Skewed distribution)

頻數分布有正態分佈和偏態分布之分。正態分佈是指多數頻數集中在 位置,兩端的頻數分布大致對稱。偏態分布是指頻數分布不對稱,集中位置偏向一側。若集中位置偏向數值小的一側,稱為正偏態分布 集中位置偏向數值大的一側,稱為負偏態分布。如果頻數分布的高峰向左偏移,長尾向右側延伸稱為正偏態分布,也稱右偏態分布 同...

偏態分布(Skewed distribution)

頻數分布有正態分佈和偏態分布之分。正態分佈是指多數頻數集中在 位置,兩端的頻數分布大致對稱。偏態分布是指頻數分布不對稱,集中位置偏向一側。若集中位置偏向數值小的一側,稱為正偏態分布 集中位置偏向數值大的一側,稱為負偏態分布。如果頻數分布的高峰向左偏移,長尾向右側延伸稱為正偏態分布,也稱右偏態分布 同...

python 偏態分布調整 如何處理偏態資料

在了解何為偏態資料前,要先從正態資料說起。正態分佈 正態分佈是自然界中廣泛存在的,我們都知道它是兩頭低,中間高,整個形態呈現對稱鐘形的乙個分布,之所以叫正態分佈,是因為在大量連續資料測量的情況下,我們比較希望看到這種狀態,乙個標準的正態分佈是u 均值 0,標準差 1。從下圖可以看出,橫座標代表隨機變...