在了解何為偏態資料前,要先從正態資料說起。
正態分佈是自然界中廣泛存在的,我們都知道它是兩頭低,中間高,整個形態呈現對稱鐘形的乙個分布,之所以叫正態分佈,是因為在大量連續資料測量的情況下,我們比較希望看到這種狀態,乙個標準的正態分佈是u(均值)=0,σ(標準差)=1。
從下圖可以看出,橫座標代表隨機變數x的乙個取值,在均值(u=0)附近概率密度最大,越偏離均值,概率密度減小,不在(u-3σ,u+3σ)範圍內的資料就屬於統計學意義上的異常值了。
但是現實生活中總是會存在不是正態分佈的情況,非正態分佈,那就是偏態分布了,有兩種,左偏(負偏態)和右偏(正偏態),可以用偏度來描述,偏度》0,則頻數分布的高峰向左偏移,呈右(正)偏態分布;偏度<0,則頻數分布的高峰向右偏移,呈左(負)偏態分布;|偏度|>1,呈高度偏態,0.5
對於偏態分布的資料,我們需要做一些處理使其變換為正態分佈,常用的變換方式有
對數變換:適用於相乘關係的資料、高度偏態的資料
平方根變換:適用於泊松分布(方差與均數近似相等)的資料、輕度偏態的資料
反正弦變換:適用於百分比的資料、中度偏態的資料
倒數變換1/x:適用於兩端波動較大的資料
記得上上小節泰坦尼克資料分析中的fare欄位嗎,從偏度可以看出是乙個很明顯的右偏分布的資料
繪製直方圖觀察也是如此,這時就可以使用對數變換。
雙擊縱座標,在彈出的【設定座標軸格式】中選擇對數刻度即可,比之前的右偏好多了。
1 偏態是針對正態而言的
2 描述偏態的有偏度係數這個指標
3 偏態資料通常轉換為正態分佈的資料,用的較多的轉換方式有對數和平方根
猜你喜歡:
鐵達尼號資料分析
深入淺出資料分析
資料分析實戰:母嬰商品分析
《吊打分析師》實戰—我要租個好房
簡單的excel資料分析案例
為什麼要學統計學:赤裸裸的統計學
成為資料分析師的第三年,我寫了10w字
10 9 雙座標軸繪製
在實際的應用中,常常需要把同一自變數的兩個不同量綱 不同量級的函式量的變化同時繪製在同乙個圖窗中,例如在同一張圖中同時展示空間一點上的電磁波的幅度和相位隨時間的變化 不同時間內的降雨量和溫濕度的變化,matlab中的plotyy函式可以實現上述功能,其具體的語法格式如下 plotyy x1,y1,x...
python座標軸刻度設定對數 用對數刻度設定刻度
我將新增一些圖並顯示如何刪除較小的刻度線 op from matplotlib import pyplot as plt fig1,ax1 plt.subplots ax1.plot 10,100,1000 1,2,3 ax1.set xscale log ax1.set xticks 20,300...
matlab繪製曲面並標註座標軸
首先看公式 r 的取值為 0,1 且取值的間隔為0.01 z 的取值為 0,1 且取值的間隔為0.01 看matlab的m檔案 r 0 0.01 1 z 0 0.01 1 meshgrid r,z 以矩陣的形勢進行運算出nn的值。for row 1 1 101 for col 1 1 101 nn ...