bootstrap又稱自展法,是用小樣本估計總體值的一種非引數方法,在進化和生態學研究中應用十分廣泛。例如進化樹分化節點的自展支援率等。
bootstrap的思想,是生成一系列bootstrap偽樣本,每個樣本是初始資料有放回抽樣。通過對偽樣本的計算,獲得統計量的分布。例如,要進行1000次bootstrap,求平均值的置信區間,可以對每個偽樣本計算平均值。這樣就獲得了1000個平均值。對著1000個平均值的分位數進行計算, 即可獲得置信區間。已經證明,在初始樣本足夠大的情況下,bootstrap抽樣能夠無偏得接近總體的分布。
下面是乙個例項:
例如,假設有一批產品,隨機抽出30個,使用壽命(天數)如下,試用bootstrap的方法估計這批產品壽命95%的置信區間。
圖1 初始資料的頻數直方圖
###
檢視原始資料的頻數直方圖
hist(dat, col="gray")
#生成乙個儲存器
boot.samplelist()
## 迴圈
1000
次,有放回的抽樣,每次生成的
## 新樣本儲存在
boot.sample中
for
(iin1:1000)
## 求每個樣本的
mean,
結果為1000
個bootstrap
樣本的mean
boot.meanunlist((boot.sample, mean))
## 頻數直方圖
hist(boot.mean, col="gray")
## 求
95%的置信區間
ci95quantile(boot.mean, probs=c(0.025, 0.975))
## 在頻數直方圖上加置信區間
圖2 bootstrap 1000個偽樣本平均值的頻數直方圖
python分層抽樣 抽樣方法 分層抽樣
接著上文說,簡單隨機抽樣法和分層抽樣法的對比有過乙個經典的例子。1936年美國 文學文摘 雜誌對結果進行了調查 他們根據當時的 號碼簿及該雜誌訂戶俱樂部會員名單,郵寄一千萬份問卷調查表,約240萬份,結論是蘭登取勝,而蓋洛普也組織了抽樣調查,進行民意測試。他的 與 文學文摘 截然相反,認為羅斯福必勝...
python 抽樣 python實現抽樣分布描述
本次使用木東居士提供資料案例,驗證資料分布等內容,資料讀取 df pd.read excel c users zxy desktop usecols 1,2,3 1.按照港口分類,計算各類港口資料 年齡 車票 的統計量。df1 df.groupby embarked df1.describe 或 變...
水庫抽樣演算法
輸入 一組資料,大小未知 輸出 這組資料的k個均勻抽取 要求 僅掃瞄一次 總體要求 從n個元素中隨機的抽取k個元素,其中n無法確定,保證每個元素抽到的概率相同 一些符號 k為要抽樣的個數,n為總體個數字置,n為當前遍歷的元素的位置。pool為k大小的陣列,用來儲存抽到的樣本 n k,把當前值放入po...