統計學 第四章 資料的概括性度量

2021-09-29 12:32:08 字數 1263 閱讀 5766

一、集中趨勢的度量

集中趨勢是指一組資料向某一中心值靠攏的程度,它反映了一組資料中心點的位置所在。

1.分類資料:眾數

(1)概念

眾數是一組資料**現次數最多的變數值,用m。表示。

2.順序資料:中位數和分位數

中位數是一組資料排列後處於中間位置上的變數值,用me表示。主要用於測量順序資料的集中趨勢,也適用於測量數值型資料的集中趨勢,不適合分類資料。

3.數值型資料:平均數

平均數也稱為均值,它是一組資料相加後除以資料的個數得到的結果。平均數在統計學中具有重要的地位,是集中趨勢的最主要測量值,它主要適用於數值型資料,而不適用於分類資料和順序資料。

(1)簡單平均數與加權平均數

簡單平均數:根據未分組資料計算的平均數,用總體各單位標誌值簡單相加得到的標誌總量除以單位總量而得。

加權平均數:根據分組資料計算的平均數。

幾何平均數:n各變數值乘積的n次方根,用g表示。主要用於計算比率的平均。當變數是比率當形式時,採用幾何平均法計算平均比率更為合理。

(2)眾數、中位數和平均數的特點與應用場景

眾數是一組資料分布的峰值,不受極端值的影響。其缺點是具有不唯一性,一組資料可能有乙個眾數,也可能有兩個或多個眾數,也可能沒有眾數。

眾數只有在資料量較多時才有意義,當資料量較少時,不宜適用眾數。眾數主要適合作為分類資料當集中趨勢測量值。

平均數是對數值型資料計算的,而且利用量全部資料資訊,它是實際中應用最廣泛的集中趨勢測量值。

當資料呈現對稱分布或接近對稱分布時,3個代表值相等或接近相等,這時則應選擇平均數作為集中趨勢的代表值。但平均值只要缺點是易受資料極端值的影響,對於偏態分布的資料,平均數的代表性較差。因此,當資料為偏態分布,特別是當偏態程度較大時,可以考慮選擇眾數或中位數。

二、離散程度的度量

資料離散程度是資料分布的另乙個重要特徵,它反映的是各變數值遠離其中心值的程度。

1.分類資料:異眾比率

2.順序資料:四分位差

上四分位與下四分位之差,用qd表示。

四分位差反映另中間50%資料的離散程度,其數值越小,說明中間的資料越集中;其資料越大,說明中間的資料越分散。

3。數值型資料:極差、平均差、方差和標準差

極差也稱全距,用r表示。

相對離散程度:離散係數

離散係數也稱為變異係數,它是一組資料的標準差與其相應的平均數之比,

三、偏態與峰態的度量

集中趨勢和離散程度是資料分布的兩個重要特徵,為全面了解資料分布的特點,還需要知道資料分布的形狀是否對稱、偏斜的程度以及分布的扁平程度等。

重溫統計學 python實現概括性度量

匯入所需的包 import pandas as pd import numpy as np import seaborn as sns from scipy import stats 讀取資料,並用describe檢視資料的分布情況 data pd.read excel desktop 實踐一.xl...

Python統計學一資料的概括性度量

統計學是應用數學的乙個分支,主要通過利用概率論建立數學模型,收集所觀察系統的資料,進行量化的分析 總結,並進而進行推斷和 為相關決策提供依據和參考。統計學主要又分為 描述統計學 和推斷統計學 給定一組資料,統計學可以摘要並且描述這份資料,這個用法稱作為描述統計學。另外,觀察者以資料的形態建立出乙個用...

李航統計學習第四章 樸素貝葉斯法

1 先導知識 2 樸素貝葉斯演算法 樸素貝葉斯其實很簡單,之前看了好幾遍,但總是會忘記,感覺被深度學習荼毒太深。這樣想,樸素貝葉斯算的也是有監督的東西,那麼無非就是輸入x,輸出y。如果需要得到引數,那麼就是根據輸入x和對應的標籤y,求條件概率p y x p y x p y x 這樣就好辦了,我們可以...