統計假設檢驗基礎知識
nachex
統計假設檢驗有很多,從大的方面包括引數檢驗與非引數檢驗。引數檢驗有我們常見的關於方程模型顯著性檢驗的f檢驗,方程引數的t檢驗等;而非引數檢驗中比較常見的則包括符號檢驗、秩和檢驗以及遊程檢驗。提到引數檢驗時,不得不說的乙個概念就是p-值,也就是sas&spss等統計軟體輸出結果中的做sig.值,到底什麼是sig.值是什麼,它與我們平時所熟悉的概率p有什麼關係,最初它是怎樣形成的……提到這些,不得不提到的概念有上分位點、兩類錯誤(棄真和納偽)以及閥值k又是怎樣一回事?下面我將一一道來:
圖1 α值與p值的關係圖
一、相關統計概念
1.上分位點
學統計的同學都知道正態分佈,而上分位點的由來正與正態分佈有關。最初由標準正態分佈由來,隨後擴充套件到t分布,f分布,卡方等其他分布。下面以標準正態分佈為例,設x~n(0,1),若zα
滿足條件
p=α,0<α<1
則稱點zα
為標準正態分佈的上α分位點,例如: z0.05=1.645,z0.005=2.57,z0.001=3.10
2.兩類錯誤
簡單的講兩類錯誤是指第一類錯誤:"棄真"錯誤(其發生的概率常用α表示);第二類錯誤:"取偽"錯誤(其發生的概率常用β表示)。
3.閥值(閾值)
這裡的閥值與箱型圖中的閥值意思相同,都是與判斷標準相關的乙個臨界值,由於使用目的的不同,致使形態上有些許差別。例如在檢驗樣本均值與總體均值是否有差別時,與檢驗統計量比較的臨界值k(這裡姑且先這樣定義),就是閥值。
4.顯著性水平
假設檢驗運用了小概率原理,事先確定的作為判斷的界限,即允許的小概率的標準,稱為顯著性水平。如果根據命題的原假設所計算出來的概率小於這個標準,就拒絕原假設;大於這個標準則接受原假設。這樣顯著性水平把概率分布分為兩個區間:拒絕區間,接受區間。(通常假設檢驗時只考慮到了第一類錯誤,而忽視掉了第二類錯誤,所以將此時的假設檢驗稱為顯著性檢驗)
二、相關概念與p值
前面講了那麼多的統計概念,貌似與p值沒什麼關聯,下面回到文章最初提到的問題,看看上面提到的各種概念和p值(sig.值)是怎樣聯絡起來的,下面以正態分佈均值檢驗為例進行說明:
假設檢驗的原理清楚了(上面的例子針對正態分佈方差已知的情況,其他引數檢驗只是參照的檢驗統計量不同罷了),同樣由上面的原理可推導出另一種檢驗—p值檢驗,p值檢驗是國際上流行的檢驗格式。該格式是通過計算p值,再將它與顯著性水平α作比較,決定拒絕還是接受原假設。所謂p值就是拒絕原假設所需的最低顯著性水平。p值判斷的原則是:如果p值小於給定的顯著性水平α,則拒絕原假設,否則,接受原假設。或者,更加直觀的原則是:如果p值很小,拒絕ho,p值很大,接受ho.p值檢驗為計算機進行統計分析帶來方便,p值檢驗無需針對不同的顯著性水平,先查分布表確定臨界值,然後才能進行檢驗判斷。
在spss統計軟體中,不論是哪個檢驗程式,其所顯示的p值都是雙尾檢驗的結果。若使用者欲進行的是單尾檢驗,其程式與雙尾檢驗相同,但所得到的p值自行除以2,再與期望的顯著水平相比較。sas&spss等統計軟體常用*號表示顯著性水平的程度,通常乙個*號表示0.1的顯著水平,兩個* *表示0.05的顯著水平。
概率論與數理統計 假設檢驗
引數估計能解決實際問題中分布型別已知時對位置引數進行估計的問題,可是還有許多問題引數估計無法解決。例如,某弓藏生產產品某項指標服從n 20 分布,經過技術改造後,與 2 0 是否發生了變化?問題變成 0與 2 2 0 是否成立?顯然引數估計無法回答這類問題。對這類問題,我們往往先提出假設,然後抽取樣...
統計學的假設檢驗
假設檢驗是一種規則,它根據資料樣本所提供的證據,指定是肯定還是否定有關總體的宣告。基本原理是先對總體的特徵作出某種假設,然後通過抽樣研究的統計推理,對此假設應該被拒絕還是接受作出推斷。假設檢驗的基本思想是小概率反證法思想。小概率思想是指小概率事件 p 0.01或p 0.05 在一次試驗中基本上不會發...
統計學03 假設檢驗
假設檢驗本質是一種逆向思維的應用。用大白話講,就是假如你想證明自己能辦成一件事,可以先假設你辦不成這件事,通過證明辦不成這件事發生的概率非常小來論證這件事是可以辦成的。在統計學中,這個辦不成這件事的假設被稱為零假設,記為h 0h 0 h0 而你辦成這件事的假設 在事實發生之前同樣是假設 被稱為備擇假...