#r語言 基礎統計學之樣本量計算
以下介紹基礎統計學關於樣本量計算的問題,主要解決實際問題中在已知一些統計特徵下,計算所必要的樣本量,共有三種方式:總體方差已知時,總體方差未知時 ,估計比例為p時的三種情況下的樣本量。
若已知總體x的均值為μ,方差為σ
2\sigma^2
σ2,可以依據基本公式:
n =(
z1−α
/2σ2
e)
2n = (\frac\sigma^2})^2
n=(ez1
−α/2
σ2
)2計算得出。
通過r語言編寫乙個較為簡單函式實現:
sample_size1 <- function(e,var,conf.leval) #e:最大允許誤差,var:總體方差,conf.leval:置信水平
簡單例子:某小區30000戶,調查人員將抽取合適樣本調查使用者乙個月的平均收入,要求置信度為95%,最大允許誤差為2,由歷史經驗表明家庭間收入的方差為600,則需要抽取多少戶經行調查?
> sample_size1 (e = 2,var = 600,conf.leval = 0.95)
[1] 576.2188
若已知總體x的均值為μ,總體方差σ
2\sigma^2
σ2未知時,可以依據基本公式:
n =(
t1−α
/2(n
−1)s
e)
2n = (\frac(n-1)s})^2
n=(et1
−α/2
(n−
1)s
)2公式中,t1−
α/2(
n−1)
t_(n-1)
t1−α/2
(n−
1)是隨自由度(n−
1)
(n-1)
(n−1
)二變化的,即在n未知時,t1−
α/2(
n−1)
t_(n-1)
t1−α/2
(n−
1)也是未知的。一般情況下採用實驗法(先用katex parse error: expected '}', got 'eof' at end of input: z_(n-1)
t1−α/2
(n−
1)求出n 0n_
n0,再將n0n_
n0帶入t1−
α/2(
n−1)
t_(n-1)
t1−α/2
(n−
1)求出n 1n_
n1,重複後直至先後兩次的n值的離差最小為止,最後的n1n_
n1即為確定的樣本量。
通過r語言編寫乙個較為簡單函式實現:
sample_size2 <- function(e,s,conf.leval,m) #m:為給定的較大數
n1}
簡單例子:某小區30000戶,調查人員將抽取合適樣本調查使用者乙個月的平均收入,要求置信度為95%,最大允許誤差為2,樣本標準差為600
\sqrt
600
,則需要抽取多少戶經行調查?
> sample_size2(2,sqrt(600),0.95,100) #設定m值為100
[1] 578.5885
可以看到兩個相同例子,在資訊不相同的情況下,計算結果並未相差較大。
在樣本量較大情況下,樣本比例p近似服從正態分佈,因此s的粗略估計值為p(1-p),故可以根據公式:
n =(
z1−α
/2e)
2p(1
−p
)n = (\frac})^2p(1-p)
n=(ez1
−α/2
)2
p(1−
p)p一般根據歷史經驗資料所得,若p未知,一般情況下取p = 0.5。
通過r語言編寫乙個較為簡單函式實現:
sample_size3 <- function(e,p,conf.leval)
簡單例子:某工廠以往製作產品的合格率為80%,試估計工廠現在製作產品的合格率,要求估計誤差小於3%,置信水平為95%情況下抽取多少產品數量。
通過r語言編寫乙個較為簡單函式實現:
>sample_size3(e = 0.03,p = 0.8,conf.leval = 0.95)
>[1] 682.926
以上均為基本樣本量計算的方式,而且是博主自己寫的函式,讀者可以通過自己編寫更為簡便的函式實現,歡迎交流,學無止境,加油! R語言樣本量計算
連續型變數 統計功效與樣本量間資料視覺化 一般的研究設計中,臨床結局變數可分為連續性或二分型別,不同型別的設計往往對應不同的結局變數。樣本量計算方法也有所不同。二分類結局是指結局為二分類且二者互斥,如實施某種 後,患者是否 況。服藥後病情是否改善。給定組1 n 28 某事件發生概率為30 組2 n ...
統計科學之最小樣本量計算
這一篇我們講講統計中的最小樣本量計算。大家先想想為什麼叫最小樣本量,而不是最大或者直接叫樣本量計算呢?這是因為最小樣本量這個概念主要用在抽樣統計中,抽樣統計為了研究某一事物的情況而從整體中抽取部分樣本來進行研究,並用抽取的樣本來代替整體的情況。比如要研究中學生的平均身高,你不太可能把全國的中學生身高...
《R語言資料探勘》 1 8 統計學
1.8 統計學 統計學研究資料收集 資料分析 資料解釋或說明,以及資料表示。作為資料探勘的基礎,它們的關係將在下面章節中說明。1.8.1 統計學與資料探勘 第一次使用資料探勘這個術語的人是統計學家。最初,資料探勘是乙個貶義詞,指的是企圖提取得不到資料支援的資訊。在一定程度上,資料探勘構建統計模型,這...