統計學習(六) 重抽樣方法

2021-08-03 05:01:35 字數 2739 閱讀 2377

重抽樣( resampling )主要用於以下三個目的:

bootstrap 是評價統計精度的一種常見方法。它的基本思想是,利用樣本的重抽樣資料推斷總體。由於總體是未知的,因此,樣本統計量關於總體值的真實誤差也是未知的。在 bootstrap 重抽樣中,總體由樣本表示。

設樣本 x1

,x2,

…,xn

來自某總體

f ,

f未知。對樣本進行有放回抽樣( samping with replacement ),得到與原始樣本同樣大小的 bootstrap* 樣本,不妨記為x∗

(1)1

,x∗(

1)2,

…,x∗

(1)n

x∗(2)1

,x∗(

2)2,

…,x∗

(2)n

⋮ x∗(

b)1,

x∗(b

)2,…

,x∗(

b)n

其中,

b 為重抽樣次數,即 bo

otst

rap樣本容量。

設統計量 tn

=tn(

x1,x

2,…,

xn) , 稱 t∗

(j)n

=tn(

x∗(j

)1,x

∗(j)

2,…,

x∗(j

)n)(

j=1,

2,…,

b)為統計量 tn

的 bootstrap replicates. 現在利用 t∗

(1)1

,t∗(

2)2,

…,t∗

(b)n

來估計 tn

的準確性。

設樣本 y1

,y2,

…,yb

來自某分布

g , 由大數定律,知y¯

n=1b

∑i=1

byi−

→p∫y

dg(y

)=e(

y),當

b→∞時

設函式

h 具有有限的均值,則 1b

∑i=1

bh(y

i)−→

p∫h(

y)dg

(y)=

e(h(

y))特別地, 1b

∑i=1

b(yj

−y¯)

2=1b

∑i=1

by2j

−(1b

∑i=1

byj)

2−→p

∫y2d

g(y)

−(∫y

dg(y

))2=

var(

y)因此,可以用模擬的樣本均值(方差)代替總體均值(方差)。

設樣本分佈是 f^

n , tn

是乙個統計量, vf

n^(t

n)是 tn

關於 f^

n 的方差。模擬樣本 x∗

1,x∗

2,…,

x∗n 來自 f^

n , 然後計算 t∗

n=tn

(x1,

x2,…

,xn)

. 從 f^

n 中抽取乙個觀測樣品,等價於從原始樣本中隨機地抽取乙個樣品,即從原始樣本 x1

,x2,

…,xn

中有放回地抽取

n 個樣品,組成乙個 bo

otst

rap樣本,計算t∗

n 的值。具體步驟如下:

(1). 取樣本 x∗

1,x∗

2,…,

x∗n 來自 f^

n ;

(2). 計算 t∗

n=tn

(x∗1

,x∗2

,…,x

∗n) ;

(3). 重複(1), (2)

b 次,得到 t∗

n,1,

t∗n,

2,…,

t∗n,

b;(4). 令 vb

oot=

1b∑b

=1b(

t∗n,

b−1b

∑b=1

bt∗n

,b)2

.bootstrap 通常應用於估計乙個統計量的分布,不使用正態理論。

交叉驗證( cross-validation )是一種模型驗證技術,它主要用於估計乙個**模型的準確性。在乙個**問題裡,資料集通常分成已知的(訓練集)和未知的(檢驗集)兩部分。其中訓練集用來訓練**模型,檢驗集用來檢驗模型的準確性。

一輪交叉驗證,是指首先將樣本分割成訓練集和檢驗集兩部分,在訓練集上建模,在檢驗集評價分析模型。為了降低變異度,需要做多輪交叉驗證,平均評價指標(例如,**誤差)。

交叉驗證的常見型別:

使用p 個觀測資料點作為檢驗集,其餘的資料作為訓練集。該方法需要學習和驗證 (n

p), 其中

n 是原始樣本的大小。

在留 p 法中,取 p=1, 即得留一法。

將隨機樣本隨機地分成 k 等份。乙個子樣本作為檢驗集,其餘 k-1 個子樣本作為訓練集。交叉驗證重複

k次,每次使用不同的子樣本作為檢驗集,平均

k 次結果產生乙個估計。常見的, k=

10. 該方法的優點是:所有的觀測都被使用作為訓練和檢驗,每乙個觀測只被使用一次作為檢驗。

統計學學習筆記 (7)抽樣分布

中心極限定理幫助我們了解以下事實,無論總體的分布是否為正態 1.樣本均值的均值和總體均值近似 2.樣本均值的標準偏差總是等於標準誤差 3.樣本容量越大,其樣本均值越接近正態分佈 抽樣分布是樣本統計量的分布。它可以被看作是從同一指定大小的總體中,所有可能樣本的統計量分布。我們對某一特定森林中樹木的平均...

統計學 變數 資料 抽樣

變數值是變數的取值 變數的型別 1.1 分類變數 1.2 順序變數 1.3 數值型變數 另,根據其取值不同又可分為 離散型變數 連續型變數 資料處理 將資料用圖表等形式展現出來 資料分析 選擇適當的統計方法研究資料,並從資料中提取有用資訊進而得出結論,具體方法有描述統計和推斷統計。推斷統計 如何利用...

統計學(3) 資料抽樣方法的細節

全面調查與抽樣調查是資料收集過程中最常用的2種方法。1.全面調查 就是對調查物件逐個排查。優點 得到的資料全面,可靠 缺點 耗費人力物力財力 調查時間長 適用範圍 範圍比較小 容易掌控 不具有破壞性 可操作性強 2.抽樣調查 是從總體中,抽取若干個體 即樣本 進行調查 優點 耗費的人力物力財力少 大...