所謂總體引數估計量的無偏性指的是,基於不同的樣本,使用該估計量可算出多個估計值,但它們的平均值等於被估引數的真值。
在某些場合下,無偏性的要求是有實際意義的。例如,假設在某廠商與某銷售商之間存在長期的供貨關係,則在對產品出廠質量檢驗方法的選擇上,採用隨機抽樣的方法來估計次品率就很公平。這是因為從長期來看,這種估計方法是無偏的。比如這一次所估計出來的次品率實際上偏高,廠商吃虧了;但下一次的估計很可能偏低,廠商的損失就可以補回來。由於雙方的交往會長期多次發生,這時採用無偏估計,總的來說可以達到互不吃虧的效果。
不過,在某些場合中,無偏性的要求毫無實際意義。這裡又有兩種情況:一種情況是在某些場合中不可能發生多次抽樣。例如,假設在某廠商和某銷售商之間只會發生一次買賣交易,此後不可能再發生第二次商業往來。這時雙方誰也吃虧不起,這裡就沒有什麼「平均」可言。另一種情況則是估計誤差不可能相互補償,因此「平均」不得。例如,假設需要通過試驗對乙個批量的某種型號飛彈的系統誤差做出估計。這個時候,既使我們的估計的確做到了無偏,但如果這一批飛彈的系統誤差實際上要麼偏左,要麼偏右,結果只能是大部分飛彈都不能命中目標,不可能存在「偏左」與「偏右」相互抵消,從而「平均命中」的概念。
由此可見,具有無偏性的估計量不一定就是我們「最需要」的「恰當」估計量
在概率論和數量統計中,學習過無偏估計,最近在學習**時候,也經常**中提到無偏估計。雖然對無偏估計有所了解,但是還是有些問題:
1)總體期望的無偏估計量是樣本均值x-,總體方差的無偏估計是樣本方差s^2,為什麼樣本方差需要除以n-1,而不是除以n;
2)樣本在總體中是怎樣的抽樣過程,是放回抽樣,是隨機抽樣,還是不放回抽樣等等。
為了解決這個問題,首先來回憶一下什麼叫無偏估計:
無偏估計是引數的樣本估計值的期望值等於引數的真實值。估計量的數學期望等於被估計引數,則稱此為無偏估計。 設a'=g(x1,x2,...,xn)是未知引數a的乙個點估計量,若a'滿足 e(a')= a 則稱a'為a的無偏估計量,否則為有偏估計量。 注:無偏估計就是系統誤差為零的估計。
由於公式a'=g(x1,x2,...,xn)中的x1,x2,...,xn一般為一次抽樣的結果,沒有明確是怎麼抽樣的乙個過程,所以導致不好理解為什麼a'就是a的無偏估計量,特別是很難舉出例項來給與證明。經過自己的查閱資料和理解,實際上無偏估計量可以理解如下:
簡單的理解,無偏估計量就是:在樣本中進行n次隨機的抽樣,每次抽樣都可以計算出乙個對某乙個引數的點估計量,計算n次,得到n個點估計量,然後對n個點估計量計算期望,得到的值和需要估計的總體引數相等,則稱n中的任何點估計量為總體引數的無偏估計量。
能否舉出乙個例子呢?因為實際的應用中總體是不知道,只有樣本,這能夠舉例子嗎?是可以的,不妨設總體容量為3,樣本容量為2,計算出總體方差的無偏估計為樣本方差,而且樣本方差是除以n-1,而不是除以n。
舉例:
比如我要對某個學校乙個年級的上千個學生估計他們的平均水平(真實值,上帝才知道的數字),那麼我決定抽樣來計算。
我抽出乙個10個人的樣本,可以計算出乙個均值。那麼如果我下次重新抽樣,抽到的10個人可能就不一樣了,那麼這個從樣本裡面計算出來的均值可能就變了,對不對?
因為這個均值是隨著我抽樣變化的,而我抽出哪10個人來計算這個數字是隨機的,那麼這個均值也是隨機的。但是這個均值也會服從乙個規律(乙個分布),那就是如果我抽很多次樣本,計算出很多個這樣的均值,這麼多均值們的平均數應該接近上帝才知道的真實平均水平。
如果你能理解「樣本均值」其實也是乙個隨機變數,那麼就可以理解為這個隨機變數的期望是真實值,所以無偏(這是無偏的定義);而它又是乙個隨機變數,只是估計而不精確地等於,所以是無偏估計量。
無偏估計 Unbiased Estimator
無偏估計是引數的樣本估計量的期望值等於引數的真實值。乙個簡單的例子 比如我要對某個學校乙個年級的上千個學生估計他們的平均水平 真實值,上帝才知道的數字 那麼我決定抽樣來計算。我抽出乙個10個人的樣本,可以計算出乙個均值。那麼如果我下次重新抽樣,抽到的10個人可能就不一樣了,那麼這個從樣本裡面計算出來...
無偏估計 Unbiased Estimator
無偏估計是引數的樣本估計量的期望值等於引數的真實值。乙個簡單的例子 比如我要對某個學校乙個年級的上千個學生估計他們的平均水平 真實值,上帝才知道的數字 那麼我決定抽樣來計算。我抽出乙個10個人的樣本,可以計算出乙個均值。那麼如果我下次重新抽樣,抽到的10個人可能就不一樣了,那麼這個從樣本裡面計算出來...
無偏估計與方差
在閱讀 the elements of statistical learning 第三章的時候,有乙個式子我沒有弄明白 設 y x beta epsilon 其中 epsilon 的均值為 0,方差為 sigma 2 再設 x 是 n times p 1 的矩陣 每條訓練樣本含常數項 1 那麼對 s...