假設檢驗(hypothesis testing),又稱統計假設檢驗,是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法。顯著性檢驗是假設檢驗中最常用的一種方法,也是一種最基本的統計推斷形式,其基本原理是先對總體的特徵做出某種假設,然後通過抽樣研究的統計推理,對此假設應該被拒絕還是接受做出推斷。
在引數假設檢驗中,總體的分布型別已知,假設檢驗的目的是對總體引數進行檢驗,為此,研究者需要事先提出某個假設,才能根據樣本統計量判斷假設是否真實。在引數假設檢驗中,「假設」是對總體引數的具體數值所作的陳述。為了使得作為證據的樣本統計量必然支援且僅支援乙個假設,要建立對於總體引數在邏輯上完備互斥的一對假設,即原假設(null hypothesis,記為h0h0),備擇假設(alternative hypothesis,記為h1h1)。
原假設(又稱零假設),是假定總體引數未發生變化,備擇假設(又稱對立假設),是假定總體引數發生變化。實際建立假設時,原假設與備擇假設方向不同,會導致不同的結論,為此,在選擇原假設和備擇假設時,我們通常根據研究者是希望收集證據予以支援還是拒絕的判斷作為選擇依據。
在實際操作中,通常將研究者希望收集證據予以拒絕的假設作為原假設,而將研究者希望通過蒐集證據予以支援的假設作為備擇假設。比如,質量標準規定產品平均重量達到500克為合格品,質量檢驗人員通常希望找出不合格產品,則研究者希望通過收集證據予以支援的是該批產品,也就是該批產品平均重量不足500克。
在假設檢驗中,由於涉及到方向選擇,而方向由備擇假設決定,所有通常先建立備擇假設,備擇假設h1h1一旦建立,再根據完備與互斥性,那麼原假設h0h0也就是確定了
假設檢驗的基本思想是利用「小概率事件」原理做出統計判斷的,而「小概率事件」是否發生與一次抽樣所得的樣本及所選擇的顯著性水平α有關,由於樣本的隨機性及選擇顯著性水平α的不同,因此檢驗結果與真實情況也可能不吻合,從而假設檢驗是可能犯錯誤的
。一般地,假設檢驗可能犯的錯誤有如下兩類 :
①當假設h0正確時,小概率事件也有可能發生,此時我們會拒絕假設h0。因而犯了「棄真」的錯誤,稱此為第一類錯誤,犯第一類錯誤的概率恰好就是「小概率事件」發生的概率α,即
p=α②當假設h0不正確,但一次抽樣檢驗未發生不合理結果時,這時我們會接受h0,因而犯了「取偽」的錯誤,稱此為第二類錯誤,記β為犯第二類錯誤的概率,即
p=β理論上,自然希望犯這兩類錯誤的概率都很小。當樣本容量n固定時,α、β不能同時都小,即α變小時,β就變大;而β變小時,α就變大。一般只有當樣本容量n增大時,才有可能使兩者變小。在實際應用中,一般原則是:控制犯第一類錯誤的概率,即給定α,然後通過增大樣本容量n來減小b。這種著重對第一類錯誤的概率α加以控制的假設檢驗稱為顯著性檢驗
假設檢驗是圍繞對原假設內容的審定而展開的。如果原假設正確我們接受了(同時也就拒絕了備擇假設),或原假設錯誤我們拒絕了(同時也就接受了備擇假設),這表明我們作出了正確的決定。但是,由於假設檢驗是根據樣本提供的資訊進行推斷的,也就有犯錯誤的可能。
有這樣一種情況,原假設正確,而我們卻把它當成錯誤的加以拒絕。犯這種錯誤的概率用α表示,統計上把α稱為假設檢驗中的顯著性水平[3] ,也就是決策中所面臨的風險
p值(p value)就是當原假設為真時所得到的樣本觀察結果或更極端結果出現的概率。如果p值很小,說明原假設情況的發生的概率很小,而如果出現了,根據小概率原理,我們就有理由拒絕原假設,p值越小,我們拒絕原假設的理由越充分。總之,p值越小,表明結果越顯著。但是檢驗的結果究竟是「顯著的」、「中度顯著的」還是「高度顯著的」需要我們自己根據p值的大小和實際問題來解決
通俗版的假設檢驗和什麼是p值可參考知乎馬同學的回答
所謂單側檢驗,是指當要檢驗的是樣本所取自的總體的引數值大於或小於某個特定值時,所採用的一種單方面的統計檢驗方法。
單側檢驗包括左單側檢驗和右單側檢驗兩種。如果所要檢驗的是樣本所取自的總體的引數值是否大於某個特定值時,則採用右單側檢驗;反之,若所要檢驗的是樣本所取自的總體的引數值是否小於某個特定值時,則採用左單側檢驗。
雙側檢驗,就是指當統計分析的目的是要檢驗樣本平均數和總體平均數,或樣本成數有沒有顯著差異,而不問差異的方向是否是正差還是負差時,所採用的一種統計檢驗方法。
置信區間是指由樣本統計量所構造的總體引數的估計區間。在統計學中,乙個概率樣本的置信區間(confidence interval)是對這個樣本的某個總體引數的區間估計。置信區間展現的是這個引數的真實值有一定概率落在測量結果的周圍的程度,其給出的是被測量引數的測量值的可信程度,即前面所要求的「乙個概率」。
聯絡:1.都是根據樣本資訊對總體的數量特徵進行推斷;
2.都是以抽樣分布為理論依據,建立在概率論基礎之上的統計推斷。
區別:1.引數估計是以樣本資料估計總體引數的真值,而假設檢驗是以樣本資料對總體的先驗假設是否成立;
2.引數估計中的區間估計是以樣本統計量為中心的雙側之心區間,假設檢驗既有單側檢驗又有雙側檢驗;
2、數理統計講義
3、沈南山著,數學教育測量與統計分析,中國科學技術大學出版社,2017.01
4、原假設與備擇假設的聯絡與區別
5、統計學假設檢驗中 p 值的含義具體是什麼?
6、如何理解 95% 置信區間?
7、常見假設檢驗型別對比
統計學初識之假設檢驗
對於原假設提出的命題,我們需要做出判斷,這種判斷可以用 原假設正確 或 原假設錯誤 來表述。當然這是依據樣本提供的資訊進行判斷的,也就是說由部分來推斷總體。因而判斷有可能正確,也有可能不正確,也就說我們面臨著犯錯誤的可能。所犯的錯誤有兩種型別,一類錯誤是原假設h0為真卻被我們拒絕了,犯這種錯誤的概率...
統計學的假設檢驗
假設檢驗是一種規則,它根據資料樣本所提供的證據,指定是肯定還是否定有關總體的宣告。基本原理是先對總體的特徵作出某種假設,然後通過抽樣研究的統計推理,對此假設應該被拒絕還是接受作出推斷。假設檢驗的基本思想是小概率反證法思想。小概率思想是指小概率事件 p 0.01或p 0.05 在一次試驗中基本上不會發...
統計學03 假設檢驗
假設檢驗本質是一種逆向思維的應用。用大白話講,就是假如你想證明自己能辦成一件事,可以先假設你辦不成這件事,通過證明辦不成這件事發生的概率非常小來論證這件事是可以辦成的。在統計學中,這個辦不成這件事的假設被稱為零假設,記為h 0h 0 h0 而你辦成這件事的假設 在事實發生之前同樣是假設 被稱為備擇假...