這一篇我們講講統計中的最小樣本量計算。大家先想想為什麼叫最小樣本量,而不是最大或者直接叫樣本量計算呢?
這是因為最小樣本量這個概念主要用在抽樣統計中,抽樣統計為了研究某一事物的情況而從整體中抽取部分樣本來進行研究,並用抽取的樣本來代替整體的情況。比如要研究中學生的平均身高,你不太可能把全國的中學生身高都量一遍,然後求出乙個平均值。比較簡單的方法就是從全國中學生群體中抽取一部分,然後用這一部分同學的平均身高代替全國中學生的平均身高。
既然是用抽樣樣本的平均身高代替整體的平均身高,我們就需要考慮乙個問題,就是抽出來的樣本能不能代表整體。假設全國有1000萬名中學生,你只抽了100個同學,想用這100位同學的平均身高代替這1000萬同學的平均身高,很明顯是不太合理的。那我們應該最少抽取多少樣本才能夠代表整體呢?這個最少抽取樣本就是最小樣本量,表示最少需要這麼多樣本量,當然也可以比這多,抽樣樣本越多結果越具有代表性。但是由於現實中盡可能多的樣本很難獲取,又為了保證抽樣結果足夠具有代表性,所以我們一般選擇最小樣本量。那這個最小樣本量怎麼確定呢?就是我們這一篇重點要講的內容。
在講最小樣本量之前,我們先講一下另乙個概念,統計功效,即power值。這個在之前的文章中也提過,我們再提一下。
在假設檢驗中如果計算出來的p值小於等於顯著性水平α,則拒絕零假設,否則接受原假設。在這個決策的過程中容易犯兩種錯誤:第一類錯誤(i型錯誤)叫做棄真錯誤,通俗一點就是漏診,就是本來是生病了(假設是正確的),但是你沒有檢測出來,所以給拒絕掉了;第二類錯誤(ii型錯誤)是取偽錯誤,通俗一點就是誤診,就是本來沒病(假設是錯誤的),結果你診斷說生病了(假設是正確的),所以就把假設給接受了。
下圖中左邊的分布圖為h0對應的分布,右邊的分布圖為h1對應的分布,α為一型錯誤值,β為二型錯誤值。i型錯誤的值一般為0.05,ii型錯誤的值一般為0.1或0.2,而power = 1 - β,表示h1分布下判斷正確的把握是多少,即你有多大把握能夠正確的拒絕掉h0假設。
(**知乎@邱宗滿)
上圖中h1分布下對應的整體面積減去圖中紫色部分的面積就是power的大小,具體計算公式如下:
φ表示求z值對應的累計概率,即正態分佈中的面積,δ是兩組樣本均值之差, σ為各組樣本標準差,n為樣本數。
在一般ab實驗中,我們假設ab兩組是同質的,且樣本量是一致的,所以有σ1 = σ2,n1 = n2,將上面的power公式進行轉換最後可以得到如下關於樣本量公式:
需要注意的是不同檢驗滿足的分布是不一樣的,對應的power公式也是不一樣,而最小樣本量公式也是從power來的,所以不同檢驗方式對應的最小樣本量公式也是不一樣的。我們本篇是以滿足正態分佈的z檢驗為例。
網路流之最小割
最小割的相關知識請參見 網路流問題 i.hdu4289 control 題意 給出乙個由n個點,m條邊組成的無向圖。給出兩個點s,t。對於圖中的每個點,去掉這個點都需要一定的花費。求至少多少花費才能使得s和t之間不連通。分析 題意即求最小割,將每個點拆點,點與對應點的邊權為去掉該點的花費,原圖中所有...
演算法之最小生成樹
1.問題描述 利用貪心演算法設計策略構造乙個無向連通帶權圖的最小生成樹。最小生成樹 設g v,e 是無向連通帶權圖,即乙個網路。e中每條邊 v,w 的權為 c v w 包含g 所有頂點的樹且該生成樹各邊權的總和最小 即耗費最小 則稱該生成樹為 g的最小生成樹。設g v,e 是無向連通帶權圖,頂點集v...
演算法之最小路徑和
給定乙個包含非負整數的 m x n 網格,請找出一條從左上角到右下角的路徑,使得路徑上的數字總和為最小。說明 每次只能向下或者向右移動一步。示例 輸入 1,3,1 1,5,1 4,2,1 輸出 7 解釋 因為路徑 1 3 1 1 1 的總和最小。class solution if grid.leng...