資料離散程度
概念:一組資料**現次數最多的數,眾數可以是多個,也可以沒有。
舉個栗子:[0,0,1,1,2,3]中的眾數是0和1,[0,1,2,3]中沒有眾數,[0,1,2,1]中的眾數是1。
概念:一組資料中,中間位置的那個數,假設n為奇數,排序之後中間的那個值就是中位數,如果n是偶數,排序之後中間兩個數的平均值即為中位數。
舉個栗子:假設排序之後的資料為[0,1,2,4,4],此時的中位數是2,假設排序之後的資料為[0,1,2,3],此時該組資料的中位數是(1+2)/2=1.5。
概念:把一組資料分成n等分,則稱之為n分位數。常用的有q1、q2、q3,分別為上四分位數,中位數和下四分位數。q1、q2、q3的position分別為q1_pos=(n+1)*0.25,q2_pos(n+1)*0.5,q3_pos=(n+1)*0.75,對應的分位數值見下圖的栗子:
概念:一組資料中最大值與最小值之差。
舉個栗子:[1,3,5,2,0]的max=5,min=0,so 極差=5-0=5
概念:一組資料之和與個數之比。
舉個栗子:[0,1,3,4]的平均數為(0+1+3+4)/4=2
概念:若n個數
概念:對各變數值的連乘積開項數次方根。
舉個栗子:一組資料為[1,2,2,4],則幾何平均數為
概念:每乙個變數(觀察值)與總體均數之間的差異,包含樣本方差和總體方差。樣本方差的分母為n-1,總體方差的分母為n。
概念:對方差開根號,即可。常用的是樣本方差。
概念:各個變數值同平均數的離差絕對值的算術平均數。
概念:上四分位數(q3,即位於75%)與下四分位數(q1,即位於25%)的差。
概念:當進行兩個或多個資料離散程度的比較時,如果度量單位與平均數相同,可以直接利用標準差來比較。如果單位和(或)平均數不同時,比較其離散程度就不能採用標準差,而需採用標準差與平均數的比值(相對值)來比較 :
概念:衡量眾數對一組資料的代表程度。異眾比率越大,說明非眾陣列的頻數佔總頻數的比重越大,眾數的代表性就越差;異眾比率越小,說明非眾陣列的頻數佔總頻數的比重越小,眾數的代表性越好。
概念:資料偏斜程度的測定。
sk表示偏斜係數:偏態係數小於0,因為平均數在眾數之左,是一種左偏的分布,又稱為負偏。偏態係數大於0,因為均值在眾數之右,是一種右偏的分布,又稱為正偏;當sk=0時,資料完全對稱分布。
概念:資料扁平程度的測定。
當k=3時,扁平程度適中;當k>3時為尖峰分布;當k<3時為扁平分布。
統計學 統計學基礎
五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...
統計學基礎 三
分類資料 眾數 出現最多的變數值,峰值 順序資料 中位數 位置在中間的變數值 位置 分位數 上四分位位置 假設目前有9個資料,則下四分位 9 4 2.25,資料位於第二位和第三位資料的25 的位置。假設目前有9個資料,則上四分位 3 9 4 6.75,資料位於第六位和第七位資料的75 位置。數值型資...
統計學基礎打卡 task1
1 基本概念 統計學 收集 處理 分析 解釋資料並從中得出結論的科學。資料分析的方法可分為描述統計和推斷統計。2泊松分布 泊松分布 poisson distribution 台譯卜瓦松分布,是一種統計與概率學裡常見到的離散機率分布 discrete probability distribution ...