統計學如何用少量資料概括資料(相關概念

2021-09-20 09:04:09 字數 2122 閱讀 3659

用少量資料來概括大量數字是日常生活中常見的。那麼可以用少量所謂匯**計量或概括統計量(summary statistic)來描述定量變數的資料。任何樣本的函式,只要不包含總體的未知引數,都稱為統計量(statistic),那麼樣本的隨機性決定了統計量的隨機性。

資料的"位置"

比如說哪個地方窮,那個地方富,哪個國家人高,哪個國家人矮,這樣不是說乙個地方的所有人都比另乙個地方的所有人富有或高,僅僅忽略了"平均起來"這樣的字眼。實際上,這種說法是關於資料中某變數觀測值的"中心位置",或者資料分布的中心(center或center tendency)的某種表述。這種與"位置"的有關統計量就稱為位置統計量(location statistic)。

最常用的位置統計量就是小學學到的平均值,在統計學中叫做"均值",嚴格地說叫做樣本平均值(sample mean)。

資料的"尺度"

是否"均"是由尺度統計量(scale statistic)來描述的。尺度統計量是描述資料散布,即描述集中於分散程度或變化的度量。一般來說,資料越分散,尺度統計量的值越大。

最簡單的尺度統計量就是極差(range)。極差就是極大值和極小值之間的差。

另乙個常用的尺度統計量為(樣本)標準差(standard deviation)。它度量樣本中各個數值到均值的距離的一種平均。簡單來說,標準差是一組數值自平均值分散開來的程度的一種測量觀念。乙個較大的標準差,代表大部分的數值和其平均值之間差異較大;乙個較小的標準差,代表這些數值較接近平均值。標準差實際上是方差的平方根。樣本方差是由各觀測值到均值距離的平方和除以減去1的樣本量。比如:如果樣本中的觀測值為x1,x2,x3,x4....xn,則樣本方差為:

那麼標準差就為樣本方差的平方根:

顯然如果標準差越大,資料中的觀測值就越分散,小的標準值就意味著資料很集中。

資料的標準得分

比如,資料給出兩個版的同一們課的成績,假定兩個班水平類似,但是由於兩個任課老師的評分標準不同,使得兩個班成績的均值和標準差都不一樣。例如,1班的均值和標準差分別為78.53和9.43,而2班的均值和標準差分別為70.19和7.00。那麼得到90分的一班的yangsy是不是就比2班的xiaojingjing成績更好呢?怎樣比較菜合理呢?

雖然這種均值和標準差的值不能夠直接比較,但是可以把它們標準化,然後再比較標準化的資料。乙個標準化的方法是把某樣本原始觀測值(得分)和該樣本均值之差除以該樣本的標準差,得到的度量成為標準得分(standard score)即,某觀測值xi的標準得分zi定義為:  z=(x- ex)/σ     

轉換成相應的標準得分,就可以進行比較了。那麼在上述例子中yangsy的得分(90-78.53)/9.43 = 1.22 ,而xiaojingjing的標準得分為(82 - 70.19)/7 = 1.69。所以xiaojingjing的分數應該優於yangsy。

當然,在應用一些統計方法時,有時的確需要對資料做標準化或其他變換,但這些都不是隨意的,都有某些確定的理論基礎和實踐目的。

眾數、中位數、平均值的聯絡與區別:

1、平均值是通過計算得到的,因此它會因每乙個資料的變化而變化。

2、中位數是通過排序得到的,它不受最大、最小兩個極端數值的影響.中位數在一定程度上綜合了平均數和中位數的優點,具有比較好的代表性。部分資料的變動對中位數沒有影響,當一組資料中的個別資料變動較大時,常用它來描述這組資料的集中趨勢。另外,因中位數在一組資料的數值排序中處中間的位置,

3、眾數也是資料的一種代表數,反映了一組資料的集中程度.日常生活中諸如「最佳」、「最受歡迎」、「最滿意」等,都與眾數有關係,它反映了一種最普遍的傾向.

平均數、中位數和眾數它們都有各自的的優缺點.

平均數:(1)需要全組所有資料來計算;

(2)易受資料中極端數值的影響.

中位數:(1)僅需把資料按順序排列後即可確定;

(2)不易受資料中極端數值的影響.

眾數:(1)通過計數得到;

(2)不易受資料中極端數值的影響

Python統計學一資料的概括性度量

統計學是應用數學的乙個分支,主要通過利用概率論建立數學模型,收集所觀察系統的資料,進行量化的分析 總結,並進而進行推斷和 為相關決策提供依據和參考。統計學主要又分為 描述統計學 和推斷統計學 給定一組資料,統計學可以摘要並且描述這份資料,這個用法稱作為描述統計學。另外,觀察者以資料的形態建立出乙個用...

統計學 資料的誤差

資料的誤差分為兩類 是一種隨機性誤差 引起 抽樣的隨機性 只出現在概率抽樣中 只要採用概率抽樣,抽樣誤差就是不可避免的 抽樣誤差是可計算的 抽樣誤差是可控制的,主要通過改變樣本量來控制 出現在概率抽樣 非概率抽樣 全面調查中 可控制,但不可計算 非抽樣誤差可分為 抽樣框誤差 只出現在概率抽樣中 因為...

統計學 變數 資料 抽樣

變數值是變數的取值 變數的型別 1.1 分類變數 1.2 順序變數 1.3 數值型變數 另,根據其取值不同又可分為 離散型變數 連續型變數 資料處理 將資料用圖表等形式展現出來 資料分析 選擇適當的統計方法研究資料,並從資料中提取有用資訊進而得出結論,具體方法有描述統計和推斷統計。推斷統計 如何利用...