跟二項分布相關的統計檢驗方法

2021-08-30 21:33:18 字數 1745 閱讀 7640

小概率事件在一次試驗中幾乎不可能發生。

小概率事件在多次重複試驗中必定會發生。

問題:調查北京市所有人喜歡吃麵食還是吃公尺飯(都不喜歡吃的忽略),在北京街頭隨機選了10個人(樣本有點少),有8個喜歡吃麵食,2個喜歡吃公尺飯。由此能否否定北京人喜歡吃麵食的比例為p = 0.5呢?10k

)10 \choose k

(k10​)

0. 5k

0.510−

k0.5^0.5^

0.5k0.

510−

k,k = 0,1,2,…10。基於這個分布就可以算出pr(x >= 8)的概率。

進行統計推斷:容易計算,pr(x >= 8)的概率為0.055,由對稱性,pr(x <= 2)的概率也為0.055。為了統計檢驗的嚴格性,一般要用雙尾(單尾雙尾如何選擇)。這樣在零假設的基礎上,得到pr(x = 8)或更極端的概率為0.11,這個概率不算小,無法推翻零假設。所以無法否定北京人喜歡吃麵食的比例為50%這個結論。

此檢驗屬於非引數檢驗的範疇,針對配對樣本。此檢驗的核心是二項分布(或者有二項分布近似而來的正態分佈)。

那麼何時應選用符號檢驗?

1,有序的匹配資料。如兩種****曬傷的藥a,b,a塗左手,b塗右手,比較一下哪種藥的效果更好。這時只關心a>b或a=b或a建立零假設:以有序的匹配資料為例,零假設是藥a與b的效果,即假設a>b和ab) = 1/2。

進行統計推斷:在pr(a>b) = 1/2的基礎上,判斷實際的pr(a>b)或更極端的概率。這就轉化為乙個單樣本二項式檢驗了。對此檢驗概率的計算由下面兩種方法:

1,精確方法

設m為a>b何ab的個數,由二項分布的公式,

if n >= m/2,則p=2

∗∑k=

nm(m

k)(1

2)

mp = 2 * \sum_^\binom(\frac)^

p=2∗∑k

=nm​

(km​

)(21

​)m,

else, p=2

∗∑k=

0n(m

k)(1

2)

mp = 2 * \sum_^\binom(\frac)^

p=2∗∑k

=0n​

(km​

)(21

​)m。

2,正態理論近似

值得注意的是,在npq>=5時,即這裡的n*(1/2)*(1/2)>=5,即n>=20時,可以用正態分佈來代替二項分布計算p value。

設m為a>b和ab的個數,用來近似的正態分佈的均值為mean=m/2,方差var=m/4,則

if n >= m/2,則p=2

∗(1−

ϕ(n−

m/2−

0.5m/4

))

p = 2 * (1 - \phi(\frac}))

p=2∗(1

−ϕ(m

/4​n

−m/2

−0.5

​)),

else, p=2

∗ϕ(n

−m/2

+0.5m/

4)

p = 2 * \phi(\frac})

p=2∗ϕ(

m/4​

n−m/

2+0.

5​)。

note: 上式中的加減0.5使用了連續性修正,使得二項分布更好地被正態分佈所近似。

二項分布的期望方差證明 二項分布方差的詳細證明

前置技能 從組合數公式可以直接推出 k mathrm n k n mathrm 同樣地,你可以得到 k 1 mathrm n 1 mathrm 禁止套娃 你還要熟悉二項式定理 p q n sum n mathrm n k p k q 你還要知道二項分布的概率和期望公式 若 x sim b n,p 則...

資料分布未明確時的檢驗方法

通常,資料有乙個比較明確的分布方式,如二項分布 正態分佈等,也就存在針對具體分布方式的明確檢驗方法。下面這些檢驗方式是在資料沒有明確的分布方式的情況下使用的,相比有針對明確分布資料集的檢驗方式,效率更低,需要的樣本量更大,更粗糙。乙個資料集可以使用多種方式檢驗零假設,但只要有一種檢驗方式拒絕零假設,...

二項分布和泊松分布的關係

定義 二項分布 p x k cn kpk 1 p n k 拋硬幣,假設硬幣不平整,丟擲正面的概率為p,那麼在n次拋硬幣的實驗中,出現k次正面的概率 泊松分布 p x k ke k 公共汽車站在單位時間內,來乘車的乘客數為k 的概率。假定平均到站乘客數為 二項分布和泊松分布的關係 n很大,p很小時泊松...