小概率事件在一次試驗中幾乎不可能發生。
小概率事件在多次重複試驗中必定會發生。
問題:調查北京市所有人喜歡吃麵食還是吃公尺飯(都不喜歡吃的忽略),在北京街頭隨機選了10個人(樣本有點少),有8個喜歡吃麵食,2個喜歡吃公尺飯。由此能否否定北京人喜歡吃麵食的比例為p = 0.5呢?10k
)10 \choose k
(k10)
0. 5k
0.510−
k0.5^0.5^
0.5k0.
510−
k,k = 0,1,2,…10。基於這個分布就可以算出pr(x >= 8)的概率。
進行統計推斷:容易計算,pr(x >= 8)的概率為0.055,由對稱性,pr(x <= 2)的概率也為0.055。為了統計檢驗的嚴格性,一般要用雙尾(單尾雙尾如何選擇)。這樣在零假設的基礎上,得到pr(x = 8)或更極端的概率為0.11,這個概率不算小,無法推翻零假設。所以無法否定北京人喜歡吃麵食的比例為50%這個結論。
此檢驗屬於非引數檢驗的範疇,針對配對樣本。此檢驗的核心是二項分布(或者有二項分布近似而來的正態分佈)。
那麼何時應選用符號檢驗?
1,有序的匹配資料。如兩種****曬傷的藥a,b,a塗左手,b塗右手,比較一下哪種藥的效果更好。這時只關心a>b或a=b或a建立零假設:以有序的匹配資料為例,零假設是藥a與b的效果,即假設a>b和ab) = 1/2。
進行統計推斷:在pr(a>b) = 1/2的基礎上,判斷實際的pr(a>b)或更極端的概率。這就轉化為乙個單樣本二項式檢驗了。對此檢驗概率的計算由下面兩種方法:
1,精確方法
設m為a>b何ab的個數,由二項分布的公式,
if n >= m/2,則p=2
∗∑k=
nm(m
k)(1
2)
mp = 2 * \sum_^\binom(\frac)^
p=2∗∑k
=nm
(km
)(21
)m,
else, p=2
∗∑k=
0n(m
k)(1
2)
mp = 2 * \sum_^\binom(\frac)^
p=2∗∑k
=0n
(km
)(21
)m。
2,正態理論近似
值得注意的是,在npq>=5時,即這裡的n*(1/2)*(1/2)>=5,即n>=20時,可以用正態分佈來代替二項分布計算p value。
設m為a>b和ab的個數,用來近似的正態分佈的均值為mean=m/2,方差var=m/4,則
if n >= m/2,則p=2
∗(1−
ϕ(n−
m/2−
0.5m/4
))
p = 2 * (1 - \phi(\frac}))
p=2∗(1
−ϕ(m
/4n
−m/2
−0.5
)),
else, p=2
∗ϕ(n
−m/2
+0.5m/
4)
p = 2 * \phi(\frac})
p=2∗ϕ(
m/4
n−m/
2+0.
5)。
note: 上式中的加減0.5使用了連續性修正,使得二項分布更好地被正態分佈所近似。
二項分布的期望方差證明 二項分布方差的詳細證明
前置技能 從組合數公式可以直接推出 k mathrm n k n mathrm 同樣地,你可以得到 k 1 mathrm n 1 mathrm 禁止套娃 你還要熟悉二項式定理 p q n sum n mathrm n k p k q 你還要知道二項分布的概率和期望公式 若 x sim b n,p 則...
資料分布未明確時的檢驗方法
通常,資料有乙個比較明確的分布方式,如二項分布 正態分佈等,也就存在針對具體分布方式的明確檢驗方法。下面這些檢驗方式是在資料沒有明確的分布方式的情況下使用的,相比有針對明確分布資料集的檢驗方式,效率更低,需要的樣本量更大,更粗糙。乙個資料集可以使用多種方式檢驗零假設,但只要有一種檢驗方式拒絕零假設,...
二項分布和泊松分布的關係
定義 二項分布 p x k cn kpk 1 p n k 拋硬幣,假設硬幣不平整,丟擲正面的概率為p,那麼在n次拋硬幣的實驗中,出現k次正面的概率 泊松分布 p x k ke k 公共汽車站在單位時間內,來乘車的乘客數為k 的概率。假定平均到站乘客數為 二項分布和泊松分布的關係 n很大,p很小時泊松...