重抽樣( resampling )主要用於以下三個目的:
bootstrap 是評價統計精度的一種常見方法。它的基本思想是,利用樣本的重抽樣資料推斷總體。由於總體是未知的,因此,樣本統計量關於總體值的真實誤差也是未知的。在 bootstrap 重抽樣中,總體由樣本表示。
設樣本 x1
,x2,
…,xn
來自某總體
f ,
f未知。對樣本進行有放回抽樣( samping with replacement ),得到與原始樣本同樣大小的 bootstrap* 樣本,不妨記為x∗
(1)1
,x∗(
1)2,
…,x∗
(1)n
x∗(2)1
,x∗(
2)2,
…,x∗
(2)n
⋮ x∗(
b)1,
x∗(b
)2,…
,x∗(
b)n
其中,
b 為重抽樣次數,即 bo
otst
rap樣本容量。
設統計量 tn
=tn(
x1,x
2,…,
xn) , 稱 t∗
(j)n
=tn(
x∗(j
)1,x
∗(j)
2,…,
x∗(j
)n)(
j=1,
2,…,
b)為統計量 tn
的 bootstrap replicates. 現在利用 t∗
(1)1
,t∗(
2)2,
…,t∗
(b)n
來估計 tn
的準確性。
設樣本 y1
,y2,
…,yb
來自某分布
g , 由大數定律,知y¯
n=1b
∑i=1
byi−
→p∫y
dg(y
)=e(
y),當
b→∞時
設函式
h 具有有限的均值,則 1b
∑i=1
bh(y
i)−→
p∫h(
y)dg
(y)=
e(h(
y))特別地, 1b
∑i=1
b(yj
−y¯)
2=1b
∑i=1
by2j
−(1b
∑i=1
byj)
2−→p
∫y2d
g(y)
−(∫y
dg(y
))2=
var(
y)因此,可以用模擬的樣本均值(方差)代替總體均值(方差)。
設樣本分佈是 f^
n , tn
是乙個統計量, vf
n^(t
n)是 tn
關於 f^
n 的方差。模擬樣本 x∗
1,x∗
2,…,
x∗n 來自 f^
n , 然後計算 t∗
n=tn
(x1,
x2,…
,xn)
. 從 f^
n 中抽取乙個觀測樣品,等價於從原始樣本中隨機地抽取乙個樣品,即從原始樣本 x1
,x2,
…,xn
中有放回地抽取
n 個樣品,組成乙個 bo
otst
rap樣本,計算t∗
n 的值。具體步驟如下:
(1). 取樣本 x∗
1,x∗
2,…,
x∗n 來自 f^
n ;
(2). 計算 t∗
n=tn
(x∗1
,x∗2
,…,x
∗n) ;
(3). 重複(1), (2)
b 次,得到 t∗
n,1,
t∗n,
2,…,
t∗n,
b;(4). 令 vb
oot=
1b∑b
=1b(
t∗n,
b−1b
∑b=1
bt∗n
,b)2
.bootstrap 通常應用於估計乙個統計量的分布,不使用正態理論。
交叉驗證( cross-validation )是一種模型驗證技術,它主要用於估計乙個**模型的準確性。在乙個**問題裡,資料集通常分成已知的(訓練集)和未知的(檢驗集)兩部分。其中訓練集用來訓練**模型,檢驗集用來檢驗模型的準確性。
一輪交叉驗證,是指首先將樣本分割成訓練集和檢驗集兩部分,在訓練集上建模,在檢驗集評價分析模型。為了降低變異度,需要做多輪交叉驗證,平均評價指標(例如,**誤差)。
交叉驗證的常見型別:
使用p 個觀測資料點作為檢驗集,其餘的資料作為訓練集。該方法需要學習和驗證 (n
p), 其中
n 是原始樣本的大小。
在留 p 法中,取 p=1, 即得留一法。
將隨機樣本隨機地分成 k 等份。乙個子樣本作為檢驗集,其餘 k-1 個子樣本作為訓練集。交叉驗證重複
k次,每次使用不同的子樣本作為檢驗集,平均
k 次結果產生乙個估計。常見的, k=
10. 該方法的優點是:所有的觀測都被使用作為訓練和檢驗,每乙個觀測只被使用一次作為檢驗。
統計學學習筆記 (7)抽樣分布
中心極限定理幫助我們了解以下事實,無論總體的分布是否為正態 1.樣本均值的均值和總體均值近似 2.樣本均值的標準偏差總是等於標準誤差 3.樣本容量越大,其樣本均值越接近正態分佈 抽樣分布是樣本統計量的分布。它可以被看作是從同一指定大小的總體中,所有可能樣本的統計量分布。我們對某一特定森林中樹木的平均...
統計學 變數 資料 抽樣
變數值是變數的取值 變數的型別 1.1 分類變數 1.2 順序變數 1.3 數值型變數 另,根據其取值不同又可分為 離散型變數 連續型變數 資料處理 將資料用圖表等形式展現出來 資料分析 選擇適當的統計方法研究資料,並從資料中提取有用資訊進而得出結論,具體方法有描述統計和推斷統計。推斷統計 如何利用...
統計學(3) 資料抽樣方法的細節
全面調查與抽樣調查是資料收集過程中最常用的2種方法。1.全面調查 就是對調查物件逐個排查。優點 得到的資料全面,可靠 缺點 耗費人力物力財力 調查時間長 適用範圍 範圍比較小 容易掌控 不具有破壞性 可操作性強 2.抽樣調查 是從總體中,抽取若干個體 即樣本 進行調查 優點 耗費的人力物力財力少 大...