學習筆記
學習書目:《統計學:從資料到結論》–吳喜之
很多檢驗都假定了總體的背景分布,但也有些檢驗沒有假定總體分布的具體形式,這些檢驗多根據資料觀測值的相對大小建立檢驗統計量,然後找到在零假設下這些統計量的分布,並且看這些統計量的資料實現是否在零假設下屬於小概率事件。這種和資料本身的總體分布無關的檢驗稱為非引數檢驗。
在分布未知時,如果還假定總體有諸如正態分佈那樣的己知分布,在進行推斷性統計時,就可能產生錯誤甚至災難。非引數檢驗總是比傳統檢驗安全,但在總體分布形式已知時,非引數檢驗就不如傳統方法效率高,這是因為非引數的方法利用的資訊要少一些,往往在傳統方法可以拒絕零假設的情況下,非引數檢驗無法拒絕。但非引數統計在總體分布未知時,效率要比假定了錯誤總體分布時的傳統方法要高,有時要高很多.
符號檢驗
符號檢驗,它是對位置引數中位數的檢驗,而且不需要任何關於總體的假定。當然,對於像正態分佈或t
tt分布那樣的對稱分布,總體中位數就是總體均值.這時,對中位數的檢驗等價於對均值的檢驗.
檢驗一般以兩種形式出現,一種是看中位數或α
\alpha
α分位數是否是某個事先認定的值(零假設),一種是大於(或小於)某數的觀測值是否為乙個事先認定的比例(零假設).
符號秩檢驗的原理是這樣的,有樣本x1,
x2,.
..,x
nx_1,x_2,...,x_n
x1,x2
,..
.,xn
,如果零假設為中位數m=m
0m=m_0
m=m0
,則需要計算在n個差xi−
m0(i
=1,2
,...
,n
)x_i-m_0(i=1,2,...,n)
xi−m0
(i=
1,2,
...,
n)中有多少正負符號,即可利用二項分布的概率來計算p
pp值,進而判斷是否拒絕原假設。
wilcoxon符號秩檢驗
符號檢驗利用了觀察值和零假設的中位數之差的符號來進行檢驗,但是它並沒有利用這些差的絕對值大小所包含的資訊,不同的符號僅僅代表了在中位數的哪一邊,而差的絕對值的秩的大小代表了距離中心的遠近。如果把這兩者結合在一起,自然比僅僅利用正負號的數目要更有效。這也是馬上要引入的wilcoxon符號秩檢驗的宗旨,它把差的絕對值的秩分別按照不同的符號相加作為其檢驗統計量。
與符號檢驗不同,wilcoxon符號秩檢驗對資料總體分布有一點了解,它要求假定樣本點來自連續對稱總體分布,而符號檢驗不需要知道任何總體分布的性質。
wilcoxon符號秩檢驗的原理是這樣的,假定x1,
x2,.
..,x
nx_1,x_2,...,x_n
x1,x2
,..
.,xn
為來自連續對稱總體的乙個樣本,如果零假設為中位數m=m
0m=m_0
m=m0
, 則需要把∣xi
−m0∣
|x_i -m_0|
∣xi−m
0∣排序,得到∣xi
−m0∣
|x_i -m_0|
∣xi−m
0∣的秩,然後把xi−
m0
x_i-m_0
xi−m0
的符號加到相應的秩上面。於是,可以得到既有帶正號的秩,又有帶負號的秩.對帶負號的秩的絕對值求和.即把滿足xi−
m0
<
0x_i-m_0<0
xi−m0
<
0 的∣xi
−m0∣
|x_i -m_0|
∣xi−m
0∣的秩求和,並用w
−w^-
w−表示;類似地,對帶正號的秩的絕對值也求和,即把滿足xi−
m0
>
0x_i-m_0>0
xi−m0
>
0 的∣xi
−m0∣
|x_i -m_0|
∣xi−m
0∣的秩求和,並用w
+w^+
w+表示.如果m
0m_0
m0的確是中位數,那麼w
−w^-
w−和w
+w^+
w+應該大體上差不多。如果w
−w^-
w−或w
+w^+
w+過大或過小,則懷疑中位數m=m
0m=m_0
m=m0
的零假設. 令w=m
in(w
−,w+
)w=min(w^-, w^+)
w=min(
w−,w
+),則當w
ww太小時,應該拒絕零假設,這個w
ww就是wilcoxon符號秩檢驗統計量。
我們現在有乙個樣本量為40的樣本(假設總體分布是對稱的):
74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5
79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0
75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0
73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5
經過計算,樣本中位數為73.5,現在我做出如下零假設:
h 0:
m=74h
1:
m<
74h_0:m=74 \\h_1:m <74
h0:m=
74h1
:m<74
現在我用上面學過的兩種方法進行檢驗。
符號檢驗:
> pbinom(sum(new_data>74), 40, 0.5)
[1] 0.4373147
wilcoxon符號秩檢驗:
> wilcox.test(new_data, m=74, alternative = "less")
wilcoxon signed rank test with continuity correction
data: new_data
v = 360, p-value = 0.2527
alternative hypothesis: true location is less than 74
可以看到,雖然兩個檢驗都不能拒絕原假設,但是wilcoxon符號秩檢驗的p
pp值要比符號檢驗的p
pp值小很多。所以,當資料來自對稱分布時,wilcoxon符號秩檢驗比符號檢驗效率要高。
引數檢驗與非引數檢驗
引數檢驗 parameter test 全稱引數假設檢驗,是指對引數平均值 方差進行的統計檢驗。引數檢驗是推斷統計的重要組成部分。當總體分布已知 如總體為正態分佈 根據樣本資料對總體分布的統計引數進行推斷。非引數檢驗 nonparametric tests 是統計分析方法的重要組成部分,它與引數檢驗...
Python KS檢驗以及其餘非引數檢驗的實現
4 其餘的非引數檢驗 5 參考 定義 檢驗乙個分布f x 與理論分布g x 比如正態分佈 是否一致,或兩個觀測值分布是否有顯著差異的檢驗方法 根據定義,ks檢驗可以分為兩大類 對應的原假設和備擇假設分別為 第一種 h0 指定數列服從特定分布 h1 指定數列不服從特定分布 第二種 h0 兩個數列分布一...
提高非引數檢驗功效的潛在方法
有 見參考資料 指出,某些小樣本情況下kolmogorov smirnov檢驗可能優於wilcoxon檢驗。嚴格來說,wilcoxon檢驗和ks檢驗的功效對比需多次重複模擬進行評估,此處不再贅述 見參考資料的 本文僅以乙個簡單的典型示例呈現。筆者根據wilcoxon的特點和ks檢驗的優勢 對分布敏感...