我們日常工作生活中會獲得各種資料,我們希望了解這些資料所代表的整體狀態,從而可以用來描述、比較和評價。
例如乙個公司每個人的收入,乙個公司保齡球對抗賽的分組成績,這些獲得的資料都是數值型資料。我們假設公司有3個部門,每個部門有6個人,其保齡球對抗賽的得分情況如下:
a部門b部門
c部門86
84229
7371
77124
10359
11185
9590
9070
388988
怎麼對這3個部門的成績資料進行比較和評價呢?首先想到的第乙個評估值當然是各部門的總得分情況。例如a部門總得分是522分,b部門總得分是522分,c部門得分是618分。c部門得分最高,a、b部門得分相同。c部門最強。
這是其中一種資料評估項:即總數(sum)。但是,如果a、b、c三個部門的人數不相等呢,那麼顯然人數多的部門有更多的優勢。就像中國和挪威,中國人的數量比挪威人的數量多的多,那麼中國的gdp就比挪威的gdp有更多的優勢,你可以把總數理解為gdp。
那麼,第2種資料評估項就來了:平均數,也稱為「均值(mean)」。即總數量除以總個數。a、b、c這3個部門各是6個人,那麼平均數就是a部門87分,b部87分,c部103分。c部門仍然最強。你可以理解「平均數」為「人均gdp」。
但我們注意觀察一下,c部分平均得分是103分,但是c部門6個人,超過103分的只有1個人,低於103分的有5人,也即超過80%的人沒有過平均數,把103分當作c部門的平均得分好像很不合理啊。
我們經常在各種新聞報道中,有某某行業平均薪酬是多少萬元,某地區人均薪酬是多少,例如軟體行業平均薪酬25萬元,金融行業平均薪酬50萬元,很多人的感覺是自己拖後腿了。這種感覺沒有錯,可能8o%的人實際上都沒有過平均數,因為平均數被行業中某些高收入的人拉高了。
在這種情況下,使用「中位數(median)」來評估資料可能更合適,中位數就是將資料依大小順序排列,取最中間的值,例如a部門的得分是86、73、124、111、90、38,按照順序排列是38、73、86、90、111、124,最中間的值是86、90。
中位數的計算方法是:如果資料個數是奇數,則最中間的值就是中位數;如果資料個數是偶數,則最中間的2個值的平均數是中位數。那麼a部門的中位數是(86+90)/2=88,b部門是(85+89)/2=87,c部門是(77+88)/2=82.5。可以看出,c部門的中位數反而是最低的。
我們再來看一下,a部門和b部門的總得分相同,都為522分,平均得分也相同,都為87分,中位數也差不多。但我們把a部門和b部門的各個得分畫成下圖,能夠看出來這2隊的資料狀況大不相同吧。
a部門各人的得分散落在各處,而b部門各人的得分都相當接近。表現資料這種「離散程度」的資料評估項,就是「標準差(standard deviation)」,標準差的最小值為0、而資料的「離散程度」越大,標準差就越大。標準差的計算如下:
通過上式計算得到a部門的得分標準差是30.17,b部7的得分標準差是10.37。也就是說總得分、平均數都相同,中位數很接近的a部門和b部門,離散程度卻相差3倍。顯然b部門的得分更加均衡。你可以理解為在gdp和人均gdp相同的情況下,標準差低的收入更加均衡,貧富差距比較小。
上面都是對數值資料的整體掌握,那麼對於分類資料呢?例如移動通訊公司收集到乙份資料,對移動通訊服務的評價情況,「非常滿意、滿意、一般、無所謂」。
序號滿意程度
1非常滿意2滿意
3滿意4一般
5一般6無所謂7一般
……..
對於分類資料,一般通過計算各個分類佔總數的比例來掌握資料的整體狀態,例如上面100個調查資料中,非常滿意的有18人,滿意的有70人,股的有10人,無所謂的有2人,那麼這4個分類分別佔比是18%,70%,10%、 2%。
統計學 資料的誤差
資料的誤差分為兩類 是一種隨機性誤差 引起 抽樣的隨機性 只出現在概率抽樣中 只要採用概率抽樣,抽樣誤差就是不可避免的 抽樣誤差是可計算的 抽樣誤差是可控制的,主要通過改變樣本量來控制 出現在概率抽樣 非概率抽樣 全面調查中 可控制,但不可計算 非抽樣誤差可分為 抽樣框誤差 只出現在概率抽樣中 因為...
統計學 資料的分類
統計學上,按照計量尺度的不同,可以將資料分為分類資料,順序資料和數值型資料 分類資料,這類資料提供分類方面的資訊。例如性別中的男,女,統計上為了便於分析,可以用 1 表示 男性 用 0 表示 女性 這裡 0 和 1 直接僅僅是起到表示作用沒有大小之分。也可以用 0 表示 男性 用 1 表示 女性 順...
統計學 變數 資料 抽樣
變數值是變數的取值 變數的型別 1.1 分類變數 1.2 順序變數 1.3 數值型變數 另,根據其取值不同又可分為 離散型變數 連續型變數 資料處理 將資料用圖表等形式展現出來 資料分析 選擇適當的統計方法研究資料,並從資料中提取有用資訊進而得出結論,具體方法有描述統計和推斷統計。推斷統計 如何利用...