1.引數估計和非引數估計
前面提到隨機變數的分布不是很明確時,我們需要先對隨機變數的分布進行估計。有一種情況是我們知道變數分布的模型,但是具體分布的引數未知,我們通過確定這些未知引數就可以實現對變數的估計,這種方式就是引數估計。其中,比較基礎且常見的引數估計方法有最大似然估計、最小二乘估計以及最大後驗概率估計。
2.最大似然估計
給出隨機變數\(x(x1,x2,x3...)\)以及它的獨立取樣統計\(y(y1,y2,y3...)\),且已知x的分布是\(f(\theta)\),這裡我們可以把變數x的分布看作關於\(\theta\)的函式,即一組引數值\(\theta\)確定乙個x的分布函式,我們要求的引數\(\theta\)應使得分布函式最貼近y。那麼如何表示這一點呢?對於最大似然估計,那就是以\(\theta\)為引數時,對x的估計結果恰好是\(y(y1,y2,y3...)\)的總概率最大!我們由此構建了關於\(\theta\)的似然函式,用\(l(\theta)\)表示似然函式,用\(p(x_|\theta)\)表示估計結果恰好為\(y_\)的概率,有:$$l(\theta) = \prod_^ p(x_|\theta)$$
注意前面提到了統計結果是獨立的,所以總概率等於分概率相乘。對於連乘,通常採用取對數的方式做變換達到相近的結果:$$\widehat(l)(\theta) = \sum_^ ln(p(x_|\theta))$$
上式也叫對數似然函式,當我們要求引數時,只需要對似然函式關於引數的求導並置0,解方程組即可得到目標引數。
3.最小二乘法
最小二乘法和最大似然估計的不同點在於,它認為待估計的引數應使得對x的**和x的實際分布整體的「距離」最小。即求\(\theta\)滿足:$$\theta = argmin \sum_^ (f(x_|\theta) - y_)^2$$
對於引數的求取我們同樣可以轉化為一階導數為0的解,或者梯度下降發迭代求解。對於線性估計和非線性估計還有一些區別,本篇隨筆只是簡介,我會單獨寫乙個關於最小二乘法的(完了,又乙個坑)。
4.最大後驗概率估計
提到最大後驗概率,首先想起的就是貝葉斯估計,是的,最大後驗概率是貝葉斯統計學說裡面的。貝葉斯統計理論認為,對事物的觀測結果可能根據觀測角度、觀測方法、樣本的大小而不一樣,因此直接通過統計對隨機變數進行建模可能會引入誤差,所以需要引入「先驗知識」即先驗概率。觀察似然函式:$$l(\theta) = \prod_^ p(x_|\theta)$$
如果我們已知\(\theta\)的分布\(p(\theta)\):$$l(\theta) = \prod_^ \frac)p(\theta)})}$$
又分母與\(\theta\)無關,所以有:$$\theta = argmax \prod_^ p(\theta|x_)p(\theta)$$
同樣可以取對數似然:$$\theta = argmax \sum_^ (ln(p(\theta|x_)) + ln(p(\theta))$$
最大後驗概率和最大似然估計不一樣的是,其追求\(p(x_|\theta)p(\theta)\)的最大化,即保證**盡可能接近分布的同時,\(\theta\)本身的概率也最大,感覺是給似然函式增加了「約束項」,不過是以乘法的形式。
引數估計 引數估計
1 引數估計 用樣本統計量去估計總體的引數。2 估計量 用於估計總體引數的統計量的名稱 如樣本均值,樣本比例,樣本方差等 例如 樣本均值就是總體均值 3 引數用 4 估計值 估計引數時計算出來的統計量的具體值 如果樣本均值 5 點估計 例如 用樣本均值直接作為總體均值的估計乙個點估計量的可靠性是由它...
python引數估計 引數估計簡介及概念介紹 下)
引數估計簡介及概念介紹 下 引數估計簡介及概念介紹 下 請求快取 支援請求快取功能,支援對get請求設定快取訪問,並設定有效期。有兩種方式可以設定請求快取 路由設定 可以在路由規則裡面呼叫cache方法設定當前路由規則的請求快取,例如 定義get請求路由規則 並設定3600秒的快取 route ge...
引數估計與非引數估計
引數估計 parameter estimation 根據從 總體中抽取的 樣本估計總體分布中包含的未知引數的方法。人們常常需要根據手中的資料,分析或推斷資料反映的本質規律。即根據樣本資料如何選擇統計量去推斷總體的分布或數字特徵等。統計推斷是數理統計研究的核心問題。所謂統計推斷是指根據樣本對總體分布或...