跟二項分布相關的統計檢驗方法

小概率事件在一次試驗中幾乎不可能發生。

小概率事件在多次重複試驗中必定會發生。

問題：調查北京市所有人喜歡吃麵食還是吃公尺飯（都不喜歡吃的忽略），在北京街頭隨機選了10個人（樣本有點少），有8個喜歡吃麵食，2個喜歡吃公尺飯。由此能否否定北京人喜歡吃麵食的比例為p = 0.5呢？10k

)10 \choose k

(k10)

0. 5k

0.510−

k0.5^0.5^

0.5k0.

510−

k，k = 0,1,2,…10。基於這個分布就可以算出pr(x >= 8)的概率。

進行統計推斷：容易計算，pr(x >= 8)的概率為0.055，由對稱性，pr(x <= 2)的概率也為0.055。為了統計檢驗的嚴格性，一般要用雙尾（單尾雙尾如何選擇）。這樣在零假設的基礎上，得到pr(x = 8)或更極端的概率為0.11，這個概率不算小，無法推翻零假設。所以無法否定北京人喜歡吃麵食的比例為50%這個結論。

此檢驗屬於非引數檢驗的範疇，針對配對樣本。此檢驗的核心是二項分布（或者有二項分布近似而來的正態分佈）。

那麼何時應選用符號檢驗？

1，有序的匹配資料。如兩種****曬傷的藥a，b，a塗左手，b塗右手，比較一下哪種藥的效果更好。這時只關心a>b或a=b或a建立零假設：以有序的匹配資料為例，零假設是藥a與b的效果，即假設a>b和ab) = 1/2。

進行統計推斷：在pr(a>b) = 1/2的基礎上，判斷實際的pr(a>b)或更極端的概率。這就轉化為乙個單樣本二項式檢驗了。對此檢驗概率的計算由下面兩種方法：

1，精確方法

設m為a>b何ab的個數，由二項分布的公式，

if n >= m/2，則p=2

∗∑k=

nm(m

k)(1

mp = 2 * \sum_^\binom(\frac)^

p=2∗∑k

=nm

(km

)(21

)m,

else, p=2

∗∑k=

0n(m

k)(1

mp = 2 * \sum_^\binom(\frac)^

p=2∗∑k

=0n

(km

)(21

)m。

2，正態理論近似

值得注意的是，在npq>=5時，即這裡的n*(1/2)*(1/2)>=5，即n>=20時，可以用正態分佈來代替二項分布計算p value。

設m為a>b和ab的個數，用來近似的正態分佈的均值為mean=m/2，方差var=m/4，則

if n >= m/2，則p=2

∗(1−

ϕ(n−

m/2−

0.5m/4

))

p = 2 * (1 - \phi(\frac}))

p=2∗(1

−ϕ(m

/4n

−m/2

−0.5

)),

else, p=2

∗ϕ(n

−m/2

+0.5m/

p = 2 * \phi(\frac})

p=2∗ϕ(

m/4

n−m/

2+0.

5)。

note: 上式中的加減0.5使用了連續性修正，使得二項分布更好地被正態分佈所近似。

跟二項分布相關的統計檢驗方法

二項分布的期望方差證明二項分布方差的詳細證明

資料分布未明確時的檢驗方法

二項分布和泊松分布的關係

跟二項分布相關的統計檢驗方法

二項分布的期望方差證明 二項分布方差的詳細證明

資料分布未明確時的檢驗方法

二項分布和泊松分布的關係

相關推薦

二項分布的期望方差證明二項分布方差的詳細證明