Bootstrap抽樣 自展法

2021-06-26 02:10:05 字數 1576 閱讀 1690

bootstrap又稱自展法,是用小樣本估計總體值的一種非引數方法,在進化和生態學研究中應用十分廣泛。例如進化樹分化節點的自展支援率等。

bootstrap的思想,是生成一系列bootstrap偽樣本,每個樣本是初始資料有放回抽樣。通過對偽樣本的計算,獲得統計量的分布。例如,要進行1000次bootstrap,求平均值的置信區間,可以對每個偽樣本計算平均值。這樣就獲得了1000個平均值。對著1000個平均值的分位數進行計算, 即可獲得置信區間。已經證明,在初始樣本足夠大的情況下,bootstrap抽樣能夠無偏得接近總體的分布。

下面是乙個例項:

例如,假設有一批產品,隨機抽出30個,使用壽命(天數)如下,試用bootstrap的方法估計這批產品壽命95%的置信區間。

圖1 初始資料的頻數直方圖

### 

檢視原始資料的頻數直方圖

hist(dat, col="gray")

#生成乙個儲存器

boot.samplelist()

## 迴圈

1000

次,有放回的抽樣,每次生成的

## 新樣本儲存在

boot.sample中

for

(iin1:1000)

## 求每個樣本的

mean,

結果為1000

個bootstrap

樣本的mean

boot.meanunlist((boot.sample, mean))

## 頻數直方圖

hist(boot.mean, col="gray")

## 求

95%的置信區間

ci95quantile(boot.mean, probs=c(0.025, 0.975))

## 在頻數直方圖上加置信區間

圖2  bootstrap 1000個偽樣本平均值的頻數直方圖

python分層抽樣 抽樣方法 分層抽樣

接著上文說,簡單隨機抽樣法和分層抽樣法的對比有過乙個經典的例子。1936年美國 文學文摘 雜誌對結果進行了調查 他們根據當時的 號碼簿及該雜誌訂戶俱樂部會員名單,郵寄一千萬份問卷調查表,約240萬份,結論是蘭登取勝,而蓋洛普也組織了抽樣調查,進行民意測試。他的 與 文學文摘 截然相反,認為羅斯福必勝...

python 抽樣 python實現抽樣分布描述

本次使用木東居士提供資料案例,驗證資料分布等內容,資料讀取 df pd.read excel c users zxy desktop usecols 1,2,3 1.按照港口分類,計算各類港口資料 年齡 車票 的統計量。df1 df.groupby embarked df1.describe 或 變...

水庫抽樣演算法

輸入 一組資料,大小未知 輸出 這組資料的k個均勻抽取 要求 僅掃瞄一次 總體要求 從n個元素中隨機的抽取k個元素,其中n無法確定,保證每個元素抽到的概率相同 一些符號 k為要抽樣的個數,n為總體個數字置,n為當前遍歷的元素的位置。pool為k大小的陣列,用來儲存抽到的樣本 n k,把當前值放入po...