描述性統計學

2021-10-04 12:45:59 字數 1871 閱讀 8541

描述性統計學是資料分析的基礎內容,雖是基礎,但是不能忽視,資料中最初展示的資訊往往就是利用描述性統計學總結出來的。

描述性統計學回顧:

描述性統計學有五個重要的指標:

1,平均值 2,四分位數 3,標準差 4, 變異係數 5,標準分

1,平均值:平均值的統計學意義很簡單,就是求一組資料的平均數:

雖然平均數簡單易求,也能反映出資料的一部分資訊,但是,平均數對異常值的敏感度很低,比如在某些場景中:一群人的平均收入,如果其中某些人的收入比其他人高出幾個數量級,其他人的平均收入也會被拉高,但並不能代表其他人的 收入也很高。

2,四分位數:四分位數有兩個,乙個是下四分位數為q1,另乙個是上四分位數q3,他們的求法為:先對資料進行從大到小的排序,然後求出中位數q2,此時用中位數將資料分為兩部分,中位數左邊的資料佔總體資料的百分之五十,右邊的資料也佔總體資料的百分之五十,從左邊百分之五十的資料中,找出這部分的中位數,該資料就是下四分位數,右邊部分資料的中位數就是上四分位數。

同樣四分位數能反應出一部分統計資訊:能夠從整體描述出資料集的分布狀態,但是他也有一些缺點:無法描述資料的波動性。

利用四分位數,我們可以排除資料中的異常值,具體方法如下:

最小估計值:q1-k(q3-q1)

最大估計值:q3+k(q3-q1)

k=1.5時是中度異常,k=3時是極度異常,k越大,是異常值的可能性就越大。

3,標準差:標準差是用來衡量資料集的波動大小,標準差越大,說明資料的波動性越大。通常也會有其他的說法來表示資料集的波動大小:離散程度,變異性等

標準差的求法:

注意標準差的兩個問題:1標準差的單位是什麼?2標準差是大一點好,還是小一點好?

回答:1,標準差的單位根據具體的使用環境來確定,如果是用於工資環境,那麼標準差的單位就是元,如果是用於求乙個球員的能力的波動性,單位就是分。

2,標準差的大小,要根據使用的場景來確定,比如如果是求乙個公司員工的收入的標準差,那麼我們就期望標準差的值能大一點,因為不同職位不同的工作年限,薪資水平是肯定不同的,但是如果是求乙個球員的得分能力的標準差,我們還是希望標準差可以小一點。

標準差也有一定的缺點,比如:如果兩個資料差別比較大,那麼就沒法去衡量資料的波動大小,這裡我們就要引入下面的概念。

4,變異係數:標準差能表示資料整體的波動,但是它有個缺點:如果兩個資料差別比較大,那麼就無法比較。

比如店鋪a的銷售額是1000萬,店鋪b的銷售額是100萬,兩個店鋪的標準差都是20萬。如果說兩個店鋪的「波動幅度相同」,這是不對的。因為一般情況下,如果原始資料值較大,那麼它的波動(標準差)也會比較大。這句話怎麼理解呢?比如,20萬對於1000萬和100萬的比例是不一樣的,乙個是五分之一,乙個是五十分之一。

同樣的標準差,對於不同量級的資料型別的意義是不同的。

如何避免標準差這個缺點呢?

如果能用標準差除以資料集的平均值,就可以消除資料大小的差異。標準差除以平均值得到的值叫作變異係數。

所以,我們通常用變異係數來比較不同資料集的波動大小。

5,標準分:標準分,也就是相對排名

它的計算公式為:

算出的標準分有以下幾種情況:

等於0,等於平均值;大於零,大於平均值;小於零,小於平均值;

描述性統計

上一節,我們談了資料視覺化,並且用python 對影象進行了簡單的實現。但是,這僅僅使得我們對資料分布的形狀和特徵有了乙個大概的了解。想要全面了解資料分布的特徵,還需要找到反應資料分布特徵的各個代表值。資料分布的特徵可以從三個方面進行測度和描述 1 分布的集中趨勢,反應各資料向其中心值靠攏或聚集的程...

描述性統計

眾數 一組資料 現最多的變數值 中位數 一組資料排序後處於中間位置上的變數值 分位數 四分位數 十分位數 百分位數 平均數 一組資料相加後除以資料個數的結果值 各變數值倒數的平均倒數,稱為調和平均數 n個變數值乘積的n次方根,稱為幾何平均數 眾數是一組資料分布的峰值,是一種位置代表值,不受值極端的影...

描述性統計

資料分布特徵可以從以下三個方面來描述 資料的水平,反應資料的集中程度 資料的差異,反應資料的離散程度 資料的分布形狀,反應數分布的偏態和峰態。描述資料水平的統計量 平均數 中位數 分位數 眾數。1.1.1 概念 1.1.2 優缺點1.2.1 眾數 1.2.2 中位數 1.2.3 分位數 分位數與中位...