推斷性統計部分(二) 引數估計

2021-07-24 23:00:42 字數 2879 閱讀 6630

標籤(空格分隔): 概率論與數理統計

引數估計包含兩大部分,點估計及區間估計,點估計,是估計引數點的值,乙個確定的值,區間估計就是估計引數的範圍。

分為矩估計法及最大似然估計法兩種,矩估計法的原理就是樣本的k階矩依概率收斂於相應的總體矩,然後建立方程組求解引數;最大似然估計就是利用利用樣本的聯合分布律建立似然函式,然後對各個引數進行求導得到似然函式的極值點,從而求出引數的最大似然估計值。下面進行細講。

一般使用是一階矩及二階矩來進行計算,容易知道它們分別收斂於總體的e(

x)及e(x

2)兩上引數,而e(

x2)=

d(x)

+[e(

x)]2

,所以矩估計法非常容易計算。

對於任意總體x,若它的均值

μ 及方差σ2

均存在,且有σ2

>

0 ,但μ,

σ2未知,設x1

,x2,

…xn 來自x的樣本,μ,

σ2的矩估計量可以通過如下計算得到{μ

^=x¯

σ2^=

1n∑n

i=1(

xi−x

¯)2

來自總體的的樣本x1

,x2,

…xn ,它們的聯合分布律如下:{l

(θ)=

∏ni=

1p(x

i;θ)

l(θ)

=∏ni

=1f(

xi;θ

),離散

型總體,

連續型總

體 其中l

(θ) 稱為似然函式,當存在θ^

使l(θ

^)取得最大值,則稱θ^

為最大似然估計量。

因此,求最大值的問題就可以歸結為微分求極值問題了,通常可以從方程dd

θl(θ

)=0 得出結果,又因l(

θ)與lnl(

θ)在同一處

θ 取得極值,所以又可以使用dd

θlnl(

θ)=0

求得,而通常來說,後一方程往往更方便,後一方程稱為對數似然方程。

若存在多個引數的情況,則通過對每乙個引數進行求導,組成方程組來求解。

但最大似然函式除了簡單情況外,往往沒有有限函式形式的解,這需要乃至數值方法求近似值,常用演算法是牛頓-拉弗森(newton-raphson)演算法或擬牛頓演算法(未做相關了解)。

關於截尾樣本的最大似然估計:分為定數截尾和定時截尾,定數截尾就加乙個組合cn

m ,定時截尾也加乙個組合上去,但對於微分求導來說,忽略掉常數因子並不影響最終結果的計算,所以幾乎是一樣的求極值方法。

分為無偏性、有效性和相合性三個,簡單介紹一下。

無偏性:估計量的期望存在,若e(

θ^)=

θ ,則稱θ^

是θ的無偏估計量

有效性:若θ^

1 和θ^

2 都是

θ 的無偏估計量,且兩個估計量的樣本容量相同,存在乙個

θ 使到d(

θ^1)

≤d(θ

^2) ,則稱θ^

1 比θ^

2 有效。

相合性:當樣本容量n→

∞ 時,估計量θ^

依概率收斂於

θ ,則稱θ^

為θ的相合估計量

所有的估計都是估計未知引數,點估計則是估計具體的某乙個數值,而區間估計,則是估計這個引數有多大的概率(置信水平:1-

α ,為何是1-

α 而不是

α ,因為約定俗成的問題,

α 在假設檢驗的時候,它叫顯著水平,而置信水平剛好是1-顯著水平,所以就用它了)落在某個區間(置信區間,置信下限,置信上限)範圍。

有時候,我們不關注它到底有多大,只關注它到底多小,比如元件壽命,不關注它有多小,只關注它有多大,比如雜質含量。這樣,就引出了單側置信區間的概念,同樣,也是估計這個引數有多大的概率(1-

α )落在區間上,和雙側區間的區別是,雙側區間因為要兼顧兩邊,所以其實一邊只有1−

α2這麼多。

對於置信區間的基本計算方法如下:

1、判斷是否正態總體

2、找到樞軸量(簡單的說,就是乙個關於隨機變數x及引數

θ 的函式,它有自己單獨的,與變數及引數都無關的分布,這樣就可以用過這個分布來確定函式內的引數

θ 的置信區間)

3、利用樞軸量的分布求出置信水平1−

α 的置信區間,根據樞軸量函式計算出

θ 的置信區間

關於置信區間樞軸量(x¯

−μσ/

n√)的理解,它是乙個標準化變數,而標準化變數分子的意思就是,在樣本中,樣本的可能均值x¯

與總體均值

μ 的距離,也可以反過來理解,即總體均值

μ 與樣本的可能均值x¯

的距離,分母就是抽樣分布中的標準差,為什麼要除以n√

由中心極限定理給出(∑n

xn−e

(∑nx

n)va

r(∑n

xn)√

服從標準

正態分佈

,而va

r(∑n

xn)=

nvar

(xn)

,所以n√

就出來了),整個式子的意思即為:「總體均值與樣本均值的差值的距離有多少個標準差那麼長!」,它是乙個比例,也以可以和標準正態分佈等效。

而卡方分布和f分布的兩上樞軸量也是乙個比例,它同樣由兩個分布雙側或單側的比例確定,又因方差無負值,所以這個雙側和單側是由小於某乙個正值和大於某乙個正值給出,不像正態分佈和t分布一有正負值。

於是,各種情況的置信區間求解如下圖:

引數估計 二

1.距估計步驟 已知 1 e x 2 d x e x 2 e x d x 1 e x 2 d x e x 2 a 1 x a 2 1 n i 1 n x i 2 overline frac sum a1 xa2 n1 i 1n xi2 例子 求總體均值 e x mu e x e x 與方差 2 d ...

統計學二 假設檢驗與引數估計

假設檢驗是推斷性統計的基石,也是統計學習中的難點。在本課節中,老師會用最簡明易懂的語言講透假設檢驗以及與其密切相關的置信區間的原理,幫助學員在使用樣本估計總體時能夠知其然並且知其所以然。在現實問題中,我們難以直接對總體,如北京市所有區域每一時點的空氣質素指標進行統計分析,因此往往通過抽樣方式來推測真...

《統計學》學習筆記之引數估計

鄙人學習筆記 乙個總體引數的區間估計 兩個總體引數估計 引數估計是推斷統計的重要內容之一。它是在抽樣及抽樣分布的基礎上,根據樣本統計量來推斷所關心的總體引數。引數估計就是用樣本統計量去估計總體的引數。在引數估計中,用來估計總體引數的統計量為估計量。而根據乙個具體的樣本計算出來的估計量的數值稱為估計值...