NO1 資料的描述性統計

2021-09-25 10:40:03 字數 1496 閱讀 7477

很有幸加入了居士的資料自習室,大家互相監督一起學習。希望自己可以堅持下去。

1. 算數平均值分為簡單算數平均值和加權算數平均值

簡單算數平均值:資料集合中所有數的和除以資料的個數

加權算數平均值:針對資料集合中每個資料值的重要程度不一的情況,採用所有資料值乘以相應權重值的和再除以資料個數來計算

算數平均值易受極大值或極小值的影響,而掩蓋資料的真實特性

eg:全國人家年收入被平均了,我們常常覺得脫了國家的後腿,其實是因為有一些高收入人群拉高了平均值

2.幾何平均值:

資料直接的關係是乘除關係

eg:由生產線上每道工序的合格率來計算整條生產線的平均合格率,比如產品線有三道工序合格率依次是60%,70%,80%,那麼整條線的合格率是(60% * 70% * 80%)再開立方根。

3.眾數:

資料集合**現次數最多的數

先將資料排序,然後最中間的數就是中位數,如果最中間有兩個數,就取兩數的平均值做中位數

不受個別極端值影響,穩定,常用來度量具有偏斜性質的資料集合的集中趨勢

極差:又稱全距,資料集合中最大值與最小值的差值

平均偏差:

所有數值與平均值的平均偏差距離,計算距離的時候使用絕對值可消除負號

方差:所有數值與平均值差的平方的和,再取平均值

標準差:

取方差的正值平方根(標準差越小,資料離散程度越小,穩定性越好)

變異係數(又名離散係數):

標準差除以算數平均值(相比於標準差,對於分析算數平均值不同的資料集合,變異係數更有說服力)

將資料由低到高有序排列的,排在1/4位置的數為第一四分位數q1,排在2/4位置的數為第二四分位數q2(即中位數),排在3/4位置的數為第三四分位數q3.

四分位極差:第一四分位數與第三四分位數的差值(q3-q1)

異眾比率:

指的是總體資料中非眾數次數與總體全部次數之比

異眾比率主要用於測度分類資料的離散程度

1.偏態係數

說明隨機系列分配不對稱程度的統計引數

平均數》中位數》眾數 :正偏態、右偏態

平均數《中位數《眾數 :負偏態、左偏態

平均數=中位數=眾數 :對稱分布

特點:長尾在哪邊就往哪偏,峰與偏態相對,峰左移右偏,峰右移左偏

偏態係數:sk<0左偏,負偏;sk>0右偏,正偏

2. 峰態係數

峰態係數是用來衡量分布曲線頂端的扁平尖稍程度,有時候兩組資料的平均值,標準差,偏態係數都相同,但是峰態係數不同。

正態分佈的峰度k=3,均勻分布的峰度k=1.8

資料的描述性統計

對資料的描述分為三個維度,分別是 資料的集中趨勢 資料的離中趨勢和資料的分布形態。描述資料集中趨勢的指標有眾數 中位數和平均數,其中平均數又分為算數平均數 加權平均數和幾何平均數 眾數資料集合 現次數最多的數值被稱為眾數。如果乙個資料集合中,只有乙個數值出現最多,那麼這個數值就是該資料集合的眾數。眾...

描述性統計

上一節,我們談了資料視覺化,並且用python 對影象進行了簡單的實現。但是,這僅僅使得我們對資料分布的形狀和特徵有了乙個大概的了解。想要全面了解資料分布的特徵,還需要找到反應資料分布特徵的各個代表值。資料分布的特徵可以從三個方面進行測度和描述 1 分布的集中趨勢,反應各資料向其中心值靠攏或聚集的程...

描述性統計

眾數 一組資料 現最多的變數值 中位數 一組資料排序後處於中間位置上的變數值 分位數 四分位數 十分位數 百分位數 平均數 一組資料相加後除以資料個數的結果值 各變數值倒數的平均倒數,稱為調和平均數 n個變數值乘積的n次方根,稱為幾何平均數 眾數是一組資料分布的峰值,是一種位置代表值,不受值極端的影...