如何確定抽樣的樣本數量

2021-09-13 02:02:39 字數 1493 閱讀 8312

總體為9200人,預設的整體置信度為95%,最大容許誤差為正負5%,求樣本容量

網上搜到的第乙個有價值的內容如下:

題目某公司對60000人中的吸菸比例做調查,置信度為95%的情況下,若要使誤差保持在4%以內,需要的最小樣本容量是

這裡並沒有告訴總體的方差(標準差)和樣本方差(標準差),那到底應該怎樣做呢?

還有第二問:

已知比例在10%-20%,要使誤差保持在5%以內,求需要的最小樣本容量?

優質解答

第一問:

當方差未知的情況下,通常取最大值.已知方差s的平方(這裡打不出平方,就用文字表示了)=p*(1-p),當p=0.5的時候,s的平方值最大,等於0.25,即取方差為0.25.所以,樣本量n=(z的平方*s的平方)/e的平方,帶入數值(置信度為95%時,z=1.96,)得:n=(1.96*1.96*0.25)/(0.04*0.04)=600.25,即最小樣本量為601.

第二問:

據題意,當比例為10%時,方差最小,方差s的平方=0.1*(1-0.1)=0.09,此時,所需樣本量最小,

帶入數值得:n=(1.96*1.96*0.09)/0.05*0.05)=138.3,即最小樣本量為139.

同理,當取20%時,最小樣本量為246,明顯139

上文中使用的抽樣數量計算公式如下。

n: 為樣本量;

e: 為抽樣誤差(可以根據均值的百分比設定),由於是倒數平方關係,抽樣誤差減小為1/2,抽樣量需要增加為4倍; 

具體到某個研究要多少樣本,就要根據誤差和置信度去計算了。具體計算公式是:n=1.96^2*p(1-p)/e^2. 其中e是誤差,p是估計的總體比例,1.96是置信度為95%的標準值

---------補充----------

感謝@detian deng

1. 在大樣本抽樣中,樣本比例p的抽樣分布可以按照正態分佈逼近。在我的之前的回答中,n=1.96^2*p(1-p)/e^2 其實只是有放回抽樣情況下對樣本量的計算,因為此時樣本比例p服從期望e(p)=p,方差v(p)=p(1-p)/n 的正態分佈,根據區間估計,有e=1.96*v(p)^2,以此可以求得n。而在無放回抽樣中,樣本比例p的方差是v(p)=(n-n/n-1)p(1-p)/n,同樣的求解方式,樣本量n=1.96^2*p(1-p)/(e^2+1.96^2*p(1-p)/n),但此時,樣本量n的大小就與總體量n有關了。是這樣吧?

2. 無論是區間估計,還是求樣本量,中間都用到了總體比例p。但是明明求這個總體比例p是我們抽樣的目的,所以在我們求n和置信區間時,涉及到p我們往往都用乙個以往統計的總體比例值作為參考。因此,從這些公式中可以發現,我們對總體比例的估計,是根據1)以往統計的總體比例;2)抽樣樣本的比例。是這樣吧?

以上內容來自於知乎的如下問題:

按照上述方式計算的結果是368.76,;按照無限總體計算的結果是384.16.

其中的confidence interval填寫容許誤差的一半(不要百分號),例如,本題中容許誤差為正負5%,所以,confidence interval填5。這個**計算出的結果是369,與我們的計算結果一致

讀取LMDB檔案的樣本數量

在caffe中一般會把資料轉為lmdb或者leveldb格式,再做訓練,加速訓練過程。如何讀取lmdb檔案呢?比如需要獲知某個lmdb檔案的樣本數量。在python下,比較簡單,生成lmdb後,可以用如下的 獲取 import lmdb env lmdb.open lmdb path txn env...

樣本數量不足時,使用遷移學習

專案背景 要做行業內文字相似性匹配,但是資料量不足,嘗試了三種方法 載入網上 的預訓練網路,用少量樣本只訓練最後兩層的少量引數 載入網上 的預訓練網路,用少量樣本對所有網路引數進行微調 3 載入網上 的預訓練網路,用少量樣本只訓練起始兩層的少量引數 最後取得了不錯的效果 以下內容借鑑 這幅圖說明了該...

JDBC如何拼接不確定數量的引數

雖然變化的引數可以用佔位符 來代替,然而遺憾的是jdbc只提供了單一佔位符功能即佔位符不能是乙個可迭代的集合。因此,對於我們傳過來的集合引數,我們可以動態地建立乙個preparestatement 拼乙個和集合大小相等數量佔位符的sql,再寫乙個迴圈來賦值每乙個佔位符,這樣就可以解決taskid的值...