統計學習（六）重抽樣方法

重抽樣( resampling )主要用於以下三個目的：

bootstrap 是評價統計精度的一種常見方法。它的基本思想是，利用樣本的重抽樣資料推斷總體。由於總體是未知的，因此，樣本統計量關於總體值的真實誤差也是未知的。在 bootstrap 重抽樣中，總體由樣本表示。

設樣本 x1

,x2,

…,xn

來自某總體

f ,

f未知。對樣本進行有放回抽樣( samping with replacement ),得到與原始樣本同樣大小的 bootstrap* 樣本，不妨記為x∗

(1)1

,x∗(

1)2,

…,x∗

(1)n

x∗(2)1

,x∗(

2)2,

…,x∗

(2)n

⋮ x∗(

b)1,

x∗(b

)2,…

,x∗(

b)n

其中，

b 為重抽樣次數，即 bo

otst

rap樣本容量。

設統計量 tn

=tn(

x1,x

2,…,

xn) , 稱 t∗

(j)n

=tn(

x∗(j

)1,x

∗(j)

2,…,

x∗(j

)n)(

j=1,

2,…,

b)為統計量 tn

的 bootstrap replicates. 現在利用 t∗

(1)1

,t∗(

2)2,

…,t∗

(b)n

來估計 tn

的準確性。

設樣本 y1

,y2,

…,yb

來自某分布

g , 由大數定律，知y¯

n=1b

∑i=1

byi−

→p∫y

dg(y

)=e(

y),當

b→∞時

設函式

h 具有有限的均值，則 1b

∑i=1

bh(y

i)−→

p∫h(

y)dg

(y)=

e(h(

y))特別地， 1b

∑i=1

b(yj

−y¯)

2=1b

∑i=1

by2j

−(1b

∑i=1

byj)

2−→p

∫y2d

g(y)

−(∫y

dg(y

))2=

var(

y)因此，可以用模擬的樣本均值(方差)代替總體均值(方差)。

設樣本分佈是 f^

n , tn

是乙個統計量， vf

n^(t

n)是 tn

關於 f^

n 的方差。模擬樣本 x∗

1,x∗

2,…,

x∗n 來自 f^

n , 然後計算 t∗

n=tn

(x1,

x2,…

,xn)

. 從 f^

n 中抽取乙個觀測樣品，等價於從原始樣本中隨機地抽取乙個樣品，即從原始樣本 x1

,x2,

…,xn

中有放回地抽取

n 個樣品，組成乙個 bo

otst

rap樣本，計算t∗

n 的值。具體步驟如下:

(1). 取樣本 x∗

1,x∗

2,…,

x∗n 來自 f^

n ;

(2). 計算 t∗

n=tn

(x∗1

,x∗2

,…,x

∗n) ;

(3). 重複(1), (2)

b 次，得到 t∗

n,1,

t∗n,

2,…,

t∗n,

b;(4). 令 vb

oot=

1b∑b

=1b(

t∗n,

b−1b

∑b=1

bt∗n

,b)2

.bootstrap 通常應用於估計乙個統計量的分布，不使用正態理論。

交叉驗證( cross-validation )是一種模型驗證技術，它主要用於估計乙個**模型的準確性。在乙個**問題裡，資料集通常分成已知的(訓練集)和未知的(檢驗集)兩部分。其中訓練集用來訓練**模型，檢驗集用來檢驗模型的準確性。

一輪交叉驗證，是指首先將樣本分割成訓練集和檢驗集兩部分，在訓練集上建模，在檢驗集評價分析模型。為了降低變異度，需要做多輪交叉驗證，平均評價指標(例如，**誤差)。

交叉驗證的常見型別：

使用p 個觀測資料點作為檢驗集，其餘的資料作為訓練集。該方法需要學習和驗證 (n

p), 其中

n 是原始樣本的大小。

在留 p 法中，取 p=1, 即得留一法。

將隨機樣本隨機地分成 k 等份。乙個子樣本作為檢驗集，其餘 k-1 個子樣本作為訓練集。交叉驗證重複

k次，每次使用不同的子樣本作為檢驗集，平均

k 次結果產生乙個估計。常見的， k=

10. 該方法的優點是：所有的觀測都被使用作為訓練和檢驗，每乙個觀測只被使用一次作為檢驗。

統計學習（六）重抽樣方法

統計學學習筆記（7）抽樣分布

統計學變數資料抽樣

統計學（3）資料抽樣方法的細節

統計學習（六） 重抽樣方法

統計學學習筆記 （7）抽樣分布

統計學 變數 資料 抽樣

統計學（3） 資料抽樣方法的細節

相關推薦

統計學習（六）重抽樣方法

統計學學習筆記（7）抽樣分布

統計學變數資料抽樣

統計學（3）資料抽樣方法的細節