統計學可以分為:描述統計學與推斷統計學
一、描述統計學:使用特定的數字或圖表來體現資料的集中程度和離散程度。
運用的工具有:平均數、中位數、眾數、幾何平均數、調和平均數、方差、標準差等。
例如箱線圖就可以很好反映其中部分重點統計值。
二、推斷統計學:根據樣本資料推斷總體的資料特徵。
相比描述統計學,大家對推斷統計學可能會相對陌生一點。首先用乙個例子來簡單說明一下為什麼會有推斷統計學。比如,你想去調查東北地區成年男性的平均身高和體重,首先想到的最直接的方法就是把所有東北成年男性都測量一遍,然後計算出平均身高和體重。但是這種方法仔細想想,雖然直接,但是既不可行也不可取。那麼另外一種方法就是隨機抽樣,抽取一定數量的東北成年男性進行身高和體重的測量,然後根據樣本的值估算出總體的值。那這種方法運用到的就是推斷統計學。
推斷統計包括兩方面的內容:引數估計和假設檢驗。
1、引數估計:
引數估計是根據從總體中抽取的樣本估計總體分布中包含的未知引數的方法。它是統計推斷的一種基本形式,分為點估計和區間估計兩部分。
還是用如上調查東北成年男性身高、體重的例子,例如抽樣測量了10000人的身高體重,得到10000人的平均身高、平均體重,那麼可以用10000個樣本的平均身高、平均體重來估計整體(整個東北地區成年男性)的平均身高、體重。這就是乙個點估計的例子。
但是,需要注意,以上例子容易讓人誤解,以為點估計就是完全將總體的計算方法移到樣本上進行計算。但是實際上,對於各項指標(平均數、方差等),樣本和總體的計算公式是可能存在差異的。
用樣本均值
用樣本方差
估計總體方差
從上兩個式子可以看出,均值的計算方法在樣本和總體上是相同的。但是方差的計算方法,樣本方差計算公司的分子為n-1(樣本總數-1),而總體方差計算公式的分子為n(總體總數)。這個差異簡單來理解可以認為是在均值確定的基礎上,樣本的自由度其實是(n-1)。當然公式也可以推理得來,此處不再贅述。但是推理過程的基礎很重要,值得一提:
點估計的估計量要滿足三個要求:無偏性(unbiased),有效性(efficient),一致性(consistent)。前面已經看到,點估計是利用樣本資料估計出乙個具體的數值,那麼區間估計是通過樣本資料,在可信度下前提下得到乙個估計的區間。無偏性:在重複抽樣的前提下,所選統計量的期望值應當等同於真實引數值,即
。有效性:如果有兩個統計量都是無偏估計量,那麼應當選擇變異性(variation)最小的那個作為點估計量。
一致性:當樣本容量增大時,點估計值應當不斷逼近真實的引數值。
在具體說明區間估計之前,我們需要明確乙個概念,那就是總體資料的分布會影響樣本的分布情況,進而會影響區間估計的分布選擇,具體如下表所示:
同樣,舉例說明,東北成年男性身高例子,我們假設身高符合正態分佈、方差未知,已經樣本數量為大樣本(10000個),那麼此時可以選擇t分布或者z分布進行估計。
t分布:區間估計公式為:
z分布:區間估計公式為:
其中上兩式子中
為樣本均值,
為樣本標準差,n為樣本數量。
和 是根據置信度查表得到的值。
也叫做標準誤。
標準差 = 一次抽樣中個體分數間的離散程度,反映了個體分數對樣本均值的代表性,用於描述統計。假定總體分布為正態分佈,方差未知。樣本數量為11。那麼根據上文的**,應該選定t分布對樣本進行估計。標準誤 = 多次抽樣中樣本均值間的離散程度,反映了樣本均值對總體均值的代表性,用於推論統計。
假設樣本的均值為1.7,標準差為0.8,置信度為99%,雙尾檢驗。那麼查表(置信度99%,自由度為樣本數量-1=10,那麼查表得到3.169。因此區間估計
為(1.7-3.169*0.8/3.3166,1.7+3.169*0.8/3.3166),其中3.3166為根號11的數值。
t分布表
2、假設檢驗:
假設檢驗是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法。
假設檢驗一般包括如下幾個步驟:
1)設假設:需要設定乙個原假設,乙個備擇假設(兩個假設加起來是全集),等號一般放在原假設中。一般把想要證明的內容放到備擇假設中。
2)畫出分布;
3)計算檢驗統計量test-statistics
4)根據分布,判斷檢驗統計量與臨界值的大小
5)判斷是否拒絕假設,得出結論。
通過乙個例子說明:假設癌症病人去世的時間滿足如下正態分佈(均值為10,標準差為2),某藥企發明了一種藥,聲稱能夠延長癌症病人的壽命。我們選取一名服用該藥物的人員,該人員去世時間為12個月。我們想判斷該藥物是否能延長癌症病人壽命。我們可以用假設檢驗的方法來進行檢驗:
總體滿足正態分佈
1)設假設:
原假設:此藥不能延長壽命;壽命<=8
備擇假設:此藥能延長壽命;壽命》8
2)總體樣本滿足正態分佈,方差已知,選擇z分布。
3)計算檢驗統計量:x=12,對應的z值為(12-8)/2=2。
4)當置信度選擇97.5%,此時為單尾檢驗,臨界值為1.96。
5)由於2>1.96,因此認為此事件為小概率事件,拒絕原假設,接受備擇假設。得出結論:該藥物確實能延長癌症病人壽命。
如上例子僅僅選取了乙個樣本來進行檢驗,下面再用乙個例子說明:
假設對於某乙個器件,國家標準要求:平均值要低於20。
運用假設檢驗判斷該公司器件是否符合國家標準:
1)設假設:
原假設:器件平均值》=20;
備擇假設:器件平均值<20;
2)總體為正態分佈,方差未知,樣本為小樣本,因此採用t分布。
3)計算檢驗統計量:樣本平均值17.17,樣本標準差2.98,檢驗統計量為
(注意此處檢驗統計量的計算公式)
4)當置信度選擇97.5%,自由度為9,此時為單尾檢驗,臨界值為2.262。
5)由於-3.0031
統計學中p值計算公式 統計學中的P值應該怎麼計算
誰浮誇了年華 2019 12 10 18 36 p 值即概率,反映某一事件發生的可能性大小。統計學根據顯著性檢驗方法所得到的p 值,一般以p 0.05 為顯著,p 0.01 為非常顯著,其含義是樣本間的差異由抽樣誤差所致的概率小於0.05 或0.01。實際上,p 值不能賦予資料任何重要性,只能說明某...
統計學P值
p 值是最常用的乙個統計學指標,幾乎統計軟體輸出結果都有p值。統計學的觀點,超過一定基準 比如 5 其實是低於5 就不能簡單地認為這是偶然事件了,而是受到了外在的影響。數學大佬出來定義了乙個稱為 得到的就是 單側p值 所以 雙側p值 如果扔10次出現出現8次正面 一般而言,為了確定從樣本 sampl...
在統計學中 統計學中的基本概念
統計學的幾個基本概念 總體和總體單位 1.總體 總體的概念 總體是指客觀存在的 具有某種共同性質的 許多個別事物組成的整體 在統計研究過程當中,統計研究的目的和任務居於支配和主導的 地位,有什麼樣的研究目的就應該有什麼樣的統計總體與之相適應。例如 要研究我們學院教師的工資情況,那麼全體教師就是研究的...