無偏估計與方差

2022-05-20 09:00:23 字數 2501 閱讀 1426

在閱讀 the elements of statistical learning 第三章的時候,有乙個式子我沒有弄明白:設 $y = x\beta + \epsilon$,其中 $\epsilon$ 的均值為 0,方差為 $\sigma^2$;再設 $x$ 是 $n \times (p+1)$ 的矩陣(每條訓練樣本含常數項 1),那麼對 $\sigma^2$ 的無偏估計是 $$\hat^2 = \frac\sum_^n(y_i-\hat_i)^2$$ 其中 $\hat = x\hat$,$\hat$ 是用 least square 得到的引數。

這個式子最奇怪的就是前面的係數 $1/(n-p-1)$。我們一般計算方差的時候都是以 $1/n$ 作為係數的,樣本方差是以 $1/(n-1)$ 作為係數的。那麼樣本方差的 $1/(n-1)$ 和上面那個式子的 $1/(n-p-1)$ 是怎麼來的呢?

我們先來看一下在一般情況下計算方差時,為什麼以 $1/n$ 為係數的估計是有偏的。設 $x_1, x_2, \dots, x_n$ 是我們觀察到的資料,它們的均值 $\bar = (x_1 + x_2 + \dots + x_n)/n$,我們估計的方差是 $$\frac\sum_^n(x_i-\bar)^2$$ 設資料真實的期望為 $\mu$,真實的方差為 $\sigma^2$,則我們估計的方差的期望為 $$\mathbb(\frac\sum_^n(x_i-\bar)^2) \\ = \mathbb(\frac\sum_^n((x_i-\mu)-(\bar-\mu))^2) \\ = \mathbb(\frac\sum_^n(x_i-\mu)^2 - \frac(\bar-\mu)\sum_^n(x_i-\mu) + (\bar-\mu)^2)$$ 注意到 $$\sum_^n(x_i-\mu) = n\bar-n\mu$$ 所以 $$\mathbb(\frac\sum_^n(x_i-\mu)^2 - \frac(\bar-\mu)\sum_^n(x_i-\mu) + (\bar-\mu)^2) \\ = \mathbb(\frac\sum_^n(x_i-\mu)^2  - (\bar-\mu)^2) \\ = \sigma^2 - \mathbb((\bar-\mu)^2)$$ 注意到 $$\mathbb(\bar) = \mu$$ 展開第二項有 $$\mathbb((\bar-\mu)^2) = \mathbb(\bar^2) - 2\mu\mathbb(\bar) + \mu^2 \\ = \mathbb(\bar^2) - \mathbb^2(\bar) = \text(\bar)$$ $\bar$ 是 $n$ 個相互獨立且方差均為 $\sigma^2$ 的變數的均值,所以 $$\text(\bar) = \frac$$ 所以 $$\mathbb(\frac\sum_^n(x_i-\bar)^2) = \sigma^2 - \mathbb((\bar-\mu)^2) \\ = \frac\sigma^2 \ne \sigma^2$$ 這就是以 $1/n$ 為係數的方差是有偏估計的原因。相應的 $$\mathbb(\frac\sum_^n(x_i-\bar)^2) \\ = \frac\mathbb(\frac\sum_^n(x_i-\bar)^2) \\ = \frac\frac\sigma^2 = \sigma^2$$ 所以以 $1/(n-1)$ 為係數的方差才是無偏估計。

回到最開始的問題,為了說明 $\hat^2$ 是對 $\sigma^2$ 的無偏估計,我們需要證明 $\mathbb(\hat^2) = \sigma^2$。這裡設 $\epsilon$ 是乙個協方差矩陣為 $\sigma^2i$ 的向量。$$\mathbb(\sum_^n(y_i-\hat_i)^2) = \mathbb(|y-x\hat|^2) \\ = \mathbb(|x\beta + \epsilon - x(x^tx)^x^t(x\beta+\epsilon)|^2) \\ = \mathbb(|x\beta + \epsilon - x\beta - x(x^tx)^x^t\epsilon|^2) \\ = \mathbb(|(i-x(x^tx)^x^t)\epsilon|^2)$$ 令 $x(x^tx)^x^t = h$,容易驗證 $h^t = h^2 = h$。我們有 $$\mathbb(|(i-x(x^tx)^x^t)\epsilon|^2) \\ = \mathbb(\epsilon^t(i-h)^t(i-h)\epsilon) \\ = \mathbb(\epsilon^t(i-h)\epsilon) = \sum_^n\sum_^n(i-h)_\mathbb(\epsilon_i\epsilon_j)$$ 注意到除非 $i = j$,否則 $\epsilon_i$ 與 $\epsilon_j$ 互相獨立,且 $\mathbb(\epsilon) = 0$,所以 $$\sum_^n\sum_^n(i-h)_\mathbb(\epsilon_i\epsilon_j) \\ = \sum_^n(i-h)_(\mathbb(\epsilon_i^2) - \mathbb^2(\epsilon_i)) \\ = \sigma^2(n-\text(h)) \\ = \sigma^2(n-\text(x(x^tx)^x^t)) \\ = \sigma^2(n-\text(x^tx(x^tx)^)) = (n-p-1)\sigma^2$$ 所以 $$\mathbb(\hat^2) = \frac\mathbb(\sum_^n(y_i-\hat_i)^2) = \sigma^2$$

無偏估計 Unbiased Estimator

無偏估計是引數的樣本估計量的期望值等於引數的真實值。乙個簡單的例子 比如我要對某個學校乙個年級的上千個學生估計他們的平均水平 真實值,上帝才知道的數字 那麼我決定抽樣來計算。我抽出乙個10個人的樣本,可以計算出乙個均值。那麼如果我下次重新抽樣,抽到的10個人可能就不一樣了,那麼這個從樣本裡面計算出來...

無偏估計 Unbiased Estimator

無偏估計是引數的樣本估計量的期望值等於引數的真實值。乙個簡單的例子 比如我要對某個學校乙個年級的上千個學生估計他們的平均水平 真實值,上帝才知道的數字 那麼我決定抽樣來計算。我抽出乙個10個人的樣本,可以計算出乙個均值。那麼如果我下次重新抽樣,抽到的10個人可能就不一樣了,那麼這個從樣本裡面計算出來...

樣本方差的無偏估計與(n 1)的由來

原文出處 在pca演算法中用到了方差,協方差矩陣,其中方差公式為,協方差矩陣公式為,當時不明白為什麼除的不是m,而是m 1,那麼想要知道為何,下面就是你想要的答案。假設x為獨立同分布的一組隨機變數,總體為m,隨機抽取n個隨機變數構成乙個樣本,和是總體的均值和方差,是常數。是對樣本的均值和方差,由於樣...