內容參考自quora回答
假定有乙個隨機變數
y y
,已知其分布。如果要獲得對該變數的乙個最合理估計值,應該取多少呢?
如果記隨機變數
y' role="presentation">y
y的估計值為
t t
,則隨機變數估計值的平方誤差期望值可以表示為: e[
(y−t
)2]=
e(y2
−2yt
+t2)
=e(y
)2−2
te(y
)+t2
' role="presentation">e[(
y−t)
2]=e
(y2−
2yt+
t2)=
e(y)
2−2t
e(y)
+t2e
[(y−
t)2]
=e(y
2−2y
t+t2
)=e(
y)2−
2te(
y)+t
2上式對
t t
求導,可以得到 −2
e(y)
+2t=
0t=e
(y)' role="presentation">−2e
(y)+
2t=0
t=e(
y)−2
e(y)
+2t=
0t=e
(y)由此可以得出,如果要最小化估計值的期望平方誤差,那麼最優的估計值t=
e(y)
t =e
(y
)。進一步地,假設我們不僅了解隨機變數
y y
的概率分布,還收集到了一些受隨機變數
y' role="presentation">y
y影響的資料
x x
,此時,我們對於
y' role="presentation">y
y的最優推斷將利用這些有用的資料。記t(
x)t (x
)為根據資料
x x
得到的對隨機變數
y' role="presentation">y
y的估計值,此時平方誤差損失記為: e[
(y−t
(x))
2]e [(
y−t(
x))2
]當x x
取值為x
' role="presentation">x
x時,平方誤差損失記為: e[
(y−t
(x))
2|x=
x]e [(
y−t(
x))2
|x=x
]根據第一小節的結論,此時t(
x)t (x
)的最優估計值為e(
y|x=
x)e (y
|x=x
)。因此,對於任意的估計取值t(
x)t (x
): e
[(y−
e(y|
x=x)
)2|x
=x]<=e[
(y−t
(x))
2|x=
x]e [(
y−e(
y|x=
x))2
|x=x
]<=e[
(y−t
(x))
2|x=
x]
由於上式對任意點處x x
均成立,因此,對上式左右兩邊求期望得到的平均值也成立:
e<=
e' role="presentation">e
<=ee
<=
e進一步推導可得: e[
(y−e
(y|x
))2]
<=e[
(y−t
(x))
2]e [(
y−e(
y|x)
)2
]<=e[
(y−t
(x))
2]
由此可以得出結論:條件期望e(
y|x)
e (y
|x
)是最優估計值。
stat 概率統計 統計推斷 統計決策理論
一 概率統計 概率vs.統計 概率 研究隨機事件出現的可能性的數學分支,描述非確 定性 uncertainty 的正式語言,是統計推斷的基礎 概率 乙個事件或事件集合出現的可能性 基本問題 給定以乙個資料產生過程,則輸出的性質是什麼 統計推斷 處理資料分析和概率理論的數學分支,與資料 挖掘和機器學習...
推斷性統計學(一,二)
我之前在上概率論與數理統計這門課的時候,關於推斷性統計有很多知識都沒有仔細地去看,因此過了一年就忘記了。因此在我馬上學習深度學習之際,想對它重新複習一下。所以在udacity上我選了這門課。這一系列的部落格就是按照udacity的 推斷性統計學 來寫的。首先udacity上的這門推斷性統計是接著描述...
推斷性統計部分(二) 引數估計
標籤 空格分隔 概率論與數理統計 引數估計包含兩大部分,點估計及區間估計,點估計,是估計引數點的值,乙個確定的值,區間估計就是估計引數的範圍。分為矩估計法及最大似然估計法兩種,矩估計法的原理就是樣本的k階矩依概率收斂於相應的總體矩,然後建立方程組求解引數 最大似然估計就是利用利用樣本的聯合分布律建立...