R語言與非引數檢驗之單樣本位置檢驗

2021-10-05 12:32:21 字數 3530 閱讀 7678

學習筆記

學習書目:《統計學:從資料到結論》–吳喜之

很多檢驗都假定總體的背景分布,但也有些檢驗沒有假定總體分布的具體形式,這些檢驗多根據資料觀測值的相對大小建立檢驗統計量,然後找到在零假設下這些統計量的分布,並且看這些統計量的資料實現是否在零假設下屬於小概率事件。這種和資料本身的總體分布無關的檢驗稱為非引數檢驗。

在分布未知時,如果還假定總體有諸如正態分佈那樣的己知分布,在進行推斷性統計時,就可能產生錯誤甚至災難。非引數檢驗總是比傳統檢驗安全,但在總體分布形式已知時,非引數檢驗就不如傳統方法效率高,這是因為非引數的方法利用的資訊要少一些,往往在傳統方法可以拒絕零假設的情況下,非引數檢驗無法拒絕。但非引數統計在總體分布未知時,效率要比假定了錯誤總體分布時的傳統方法要高,有時要高很多.

符號檢驗

符號檢驗,它是對位置引數中位數的檢驗,而且不需要任何關於總體的假定。當然,對於像正態分佈或t

tt分布那樣的對稱分布,總體中位數就是總體均值.這時,對中位數的檢驗等價於對均值的檢驗.

檢驗一般以兩種形式出現,一種是看中位數或α

\alpha

α分位數是否是某個事先認定的值(零假設),一種是大於(或小於)某數的觀測值是否為乙個事先認定的比例(零假設).

符號秩檢驗的原理是這樣的,有樣本x1,

x2,.

..,x

nx_1,x_2,...,x_n

x1​,x2

​,..

.,xn

​,如果零假設為中位數m=m

0m=m_0

m=m0

​,則需要計算在n個差xi−

m0(i

=1,2

,...

,n

)x_i-m_0(i=1,2,...,n)

xi​−m0

​(i=

1,2,

...,

n)中有多少正負符號,即可利用二項分布的概率來計算p

pp值,進而判斷是否拒絕原假設。

wilcoxon符號秩檢驗

符號檢驗利用了觀察值和零假設的中位數之差的符號來進行檢驗,但是它並沒有利用這些差的絕對值大小所包含的資訊,不同的符號僅僅代表了在中位數的哪一邊,而差的絕對值的秩的大小代表了距離中心的遠近。如果把這兩者結合在一起,自然比僅僅利用正負號的數目要更有效。這也是馬上要引入的wilcoxon符號秩檢驗的宗旨,它把差的絕對值的秩分別按照不同的符號相加作為其檢驗統計量。

與符號檢驗不同,wilcoxon符號秩檢驗對資料總體分布有一點了解,它要求假定樣本點來自連續對稱總體分布,而符號檢驗不需要知道任何總體分布的性質。

wilcoxon符號秩檢驗的原理是這樣的,假定x1,

x2,.

..,x

nx_1,x_2,...,x_n

x1​,x2

​,..

.,xn

​為來自連續對稱總體的乙個樣本,如果零假設為中位數m=m

0m=m_0

m=m0

​, 則需要把∣xi

−m0∣

|x_i -m_0|

∣xi​−m

0​∣排序,得到∣xi

−m0∣

|x_i -m_0|

∣xi​−m

0​∣的秩,然後把xi−

m0

x_i-m_0

xi​−m0

​的符號加到相應的秩上面。於是,可以得到既有帶正號的秩,又有帶負號的秩.對帶負號的秩的絕對值求和.即把滿足xi−

m0

<

0x_i-m_0<0

xi​−m0

​<

0 的∣xi

−m0∣

|x_i -m_0|

∣xi​−m

0​∣的秩求和,並用w

−w^-

w−表示;類似地,對帶正號的秩的絕對值也求和,即把滿足xi−

m0

>

0x_i-m_0>0

xi​−m0

​>

0 的∣xi

−m0∣

|x_i -m_0|

∣xi​−m

0​∣的秩求和,並用w

+w^+

w+表示.如果m

0m_0

m0​的確是中位數,那麼w

−w^-

w−和w

+w^+

w+應該大體上差不多。如果w

−w^-

w−或w

+w^+

w+過大或過小,則懷疑中位數m=m

0m=m_0

m=m0

​的零假設. 令w=m

in(w

−,w+

)w=min(w^-, w^+)

w=min(

w−,w

+),則當w

ww太小時,應該拒絕零假設,這個w

ww就是wilcoxon符號秩檢驗統計量。

我們現在有乙個樣本量為40的樣本(假設總體分布是對稱的):

74.3  78.8  68.8  78.0  70.4  80.5  80.5  69.7  71.2  73.5

79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0

75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0

73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5

經過計算,樣本中位數為73.5,現在我做出如下零假設:

h 0:

m=74h

1:

m<

74h_0:m=74 \\h_1:m <74

h0​:m=

74h1

​:m<74

現在我用上面學過的兩種方法進行檢驗。

符號檢驗:

> pbinom(sum(new_data>74), 40, 0.5)

[1] 0.4373147

wilcoxon符號秩檢驗:

> wilcox.test(new_data, m=74, alternative = "less")

wilcoxon signed rank test with continuity correction

data: new_data

v = 360, p-value = 0.2527

alternative hypothesis: true location is less than 74

可以看到,雖然兩個檢驗都不能拒絕原假設,但是wilcoxon符號秩檢驗的p

pp值要比符號檢驗的p

pp值小很多。所以,當資料來自對稱分布時,wilcoxon符號秩檢驗比符號檢驗效率要高。

引數檢驗與非引數檢驗

引數檢驗 parameter test 全稱引數假設檢驗,是指對引數平均值 方差進行的統計檢驗。引數檢驗是推斷統計的重要組成部分。當總體分布已知 如總體為正態分佈 根據樣本資料對總體分布的統計引數進行推斷。非引數檢驗 nonparametric tests 是統計分析方法的重要組成部分,它與引數檢驗...

Python KS檢驗以及其餘非引數檢驗的實現

4 其餘的非引數檢驗 5 參考 定義 檢驗乙個分布f x 與理論分布g x 比如正態分佈 是否一致,或兩個觀測值分布是否有顯著差異的檢驗方法 根據定義,ks檢驗可以分為兩大類 對應的原假設和備擇假設分別為 第一種 h0 指定數列服從特定分布 h1 指定數列不服從特定分布 第二種 h0 兩個數列分布一...

提高非引數檢驗功效的潛在方法

有 見參考資料 指出,某些小樣本情況下kolmogorov smirnov檢驗可能優於wilcoxon檢驗。嚴格來說,wilcoxon檢驗和ks檢驗的功效對比需多次重複模擬進行評估,此處不再贅述 見參考資料的 本文僅以乙個簡單的典型示例呈現。筆者根據wilcoxon的特點和ks檢驗的優勢 對分布敏感...