通俗向 假設檢驗(二) 檢驗

2021-07-28 02:13:00 字數 1776 閱讀 8788

還是看乙個栗子:

小明想了想在企業裡上班沒啥意思,還是出來報效祖國當兵吧,於是告別了心愛的小花,去了某陸軍學校準備深造。但是看到當兵要求,發現非常嚴格的指明體重只要90kg以下,上下不能超過2kg,小明看了看自己的體重,95kg感覺沒戲了,但是天無絕人之路,對於當兵的體重只是抽查,因為也實在沒有那麼多精力進行乙個乙個排查。小明準備濫竽充數一下。畢竟整體新入學的人有1000人,小明想了想,抽到自己的概率也就是1/1000,遠遠小於1%,可以認為是不可能事件。

然而上級突然想要開始巡查體重了,但是也是抽樣調查,但是這次一次抽取50個人,直接放到乙個特別大的秤上一起站著秤,然後取50個人的均值就可以,這個活動每週進行一次。

以上就是μ檢驗的乙個案例。

簡單來說,就是對樣本均值的乙個估計,看是否和總體均值相等的乙個檢驗。之前的約會案例其實是簡單的對於某乙個事件進行估計,看這件事情的概率是大還是小,而現在是對樣本的均值進行估計,看樣本均值等於總體均值的概率是大還是小。本質是一樣的,可以認為樣本均值=需要檢測的值;總體均值=錨定值。

那麼問題來了,樣本均值和總體均值之間有什麼關係呢?答案是抽樣估計的均值呈現以總體均值為均值(繞口令get),總體方差/n為方差的正態分佈,即中心極限定理。

舉個例子,還是二項分布的例子(正態分佈是二項分布n趨向於無窮的連續近似);

1、比如拋4次硬幣,其中有n面向上的二項分布圖:

對於這個二項分布,均值為2,方差為1。

五組資料和對應概率如下:

n p

0 0.0625

1 0.2500

2 0.3750

3 0.2500

4 0.0625

2、如果這時候我隨便抽取4個資料,只能是有五種情況:

情況一:n=(0,1,2,3),均值=1.5

情況二:n=(0,1,2,4),均值=1.75

情況三:n=(0,1,3,4),均值=2

情況四:n=(0,2,3,4),均值=2.25

情況五:n=(1,2,3,4),均值=2.5

剛才提到總體均值為2,方差為1,則如果按照中心極限定理進行均值為2,方差為1/根號4,也就是0.5的正態分佈進行畫圖得到:

那麼在n=4抽樣的結果中,可以看到我們要對五種情況1.5/1.75/2/2.25/2.5進行檢驗,也就是回到了小明的問題變種,比如檢驗樣本一:均值1.5:

如果女神平均四次會出來2次,那麼和我約了她四次,出來1.5次(暫且認為有1.5次)的話,我是不是和別人不一樣?

其實不用檢驗也知道其實是一樣的,但是如果用正態分佈檢驗的話,就是常說的μ檢驗。

r中可以看到95分位數

qnorm(mean=2,sd=0.5,0.95)=2.82
也就是說在單側下,並且5%的置信區間內,只有樣本均值》2.82才認為是小於5%的小概率事件。

對於樣本均值這個正態曲線的標準差=總體標準差/根號n這個公式可以用開頭的案例說明:

比如就抽取了小明乙個人,那麼n=1, 總體標準差是2,所以需要按照數量進行標準差的減小;同時,如果所有人,全部抽取,那麼標準差和總體標準差沒有區別;因為標準差是樣本與總體均值的差異,換算到這裡,就是樣本均值和總體均值的差異了

通俗向 假設檢驗(一)

先來看個例子 小明是乙個窮屌絲,喜歡公司的乙個同事小美 同時,小明的上上上級小強是個高富帥,在沒事的時候也經常親自指導小美寫 小明決定在情人節那天發動攻勢,鼓起勇氣約小美出去玩,小美當時說自己有事,下次吧。後續小明又陸陸續續約了小美10次,小美除了有2次和小明出去,其他時間都說自己有事。那麼問題來了...

二項檢驗,假設檢驗

目錄 什麼是 假設檢驗 什麼是 二項檢驗 怎麼計算假設的置信度?機器學習 周志華 2.4.1節 二項檢驗 的具體分析 在學習 機器學習 周志華 第2章 2.4.1節時遇到乙個術語 二項檢驗 binomial test 不是特別理解,於是查閱了一下資料,了解了一下,有的部落格解釋的很繁雜,我認為沒有那...

二 假設檢驗

h,sig,ci ztest x,m,sigma,alpha,tail 給定資料x 預設均值m 方差sigma 置信度1 alpha tail 0表示需要檢驗的假設為 x的均值等於m tail 1表示需要檢驗的假設為 x的均值大於m tail 1表示需要檢驗的假設為 x的均值小於m 用於z 檢驗檢驗...