python 如何觀察資料分布 describe

2021-10-02 03:27:37 字數 710 閱讀 5614

如何觀察資料分布_describe

train.head(5)

#顯示前5行資料

train.tail(5)

#顯示後5行

train.columns #檢視列名

train.info(

)#檢視各字段的資訊

train.shape #檢視資料集行列分布,幾行幾列

train.describe(

)#檢視資料的大體情況

從上面的描述性統計可以看出兩點:

**正偏態

離散程度**

1)所有的特徵都是正傾斜的,最大值是平均數的幾倍。

2)離散係數(coefficient of variation,或變異係數)非常高,接近甚至超過1,說明資料的離散程度很大,波動範圍很大。

備註:正傾斜(positively skewed): 平均數 > 中位數,由於資料中有些很大很大的極端值,使得整體平均數被極少數的極端大值拉大了,俗稱「被平均」,而中位數受極端值的影響其實很小,因而此時用中位數作為中心趨勢的估計比較穩健。

負傾斜:同理。

離散係數 = 標準差 / 平均值

觀察資料的分布

在這裡記錄一些在學習,比賽中用到的 eda 方法,當作備忘錄吧 有些缺失值不是 nan,還可能是 1,inf,等特殊數字字元 對於 object 首先通過train data.info 檢視有哪些 object 對特定的列train data col value counts 檢視值分布 若出現 等...

python資料分布 Python中的資料分布

我有乙個大的資料集和已發生的損失 我想通過蒙特卡羅模擬計算未來損失的分布。在 首先計算頻率分布,然後計算嚴重性分布 在保險中,這稱為頻率 嚴重性模型 在 請檢視所附 from scipy.stats import lognorm,norm,poisson,gamma,expon from scipy...

python 偏態分布調整 如何處理偏態資料

在了解何為偏態資料前,要先從正態資料說起。正態分佈 正態分佈是自然界中廣泛存在的,我們都知道它是兩頭低,中間高,整個形態呈現對稱鐘形的乙個分布,之所以叫正態分佈,是因為在大量連續資料測量的情況下,我們比較希望看到這種狀態,乙個標準的正態分佈是u 均值 0,標準差 1。從下圖可以看出,橫座標代表隨機變...