**:數碼林部落格
原文引自:
我們總是希望能夠從一些樣本資料中去**資料總體的表現特徵,在**資料分析中也是如此,我們試圖從最近幾天的資料表現來推測目前**的整體形勢是怎麼樣的,有沒有變好或者變差的訊號,但當前幾天的資料無法完全代表總體,所以這裡只能使用「估計」。同時,**的資料始終存在波動,將最近時間段的資料作為抽樣樣本很可能資料正好處於較低或者較高水平,所以我們用樣本得到的估計值不可能是無偏差的,我們同時需要去評估這個估計值可能的變化區間。
引數估計(parameter estimation)是指用樣本的統計量去估計總體引數的方法,包括點估計和區間估計。
點估計(point estimation)是用抽樣得到的樣本統計指標作為總體某個未知引數特徵值的估計,是一種統計推斷方法。
一般對總體引數的估計會包括兩類:一種是用樣本均值去估計總體均值,對應到**資料中的數值型指標,比如**每天的uv,我們可以用近一周的日均uv去估計目前**每天唯一訪客數量的大體情況;另外一種是用樣本概率去估計總體概率,對應到**資料中的比率型指標,比如**的目標轉化率,我們可以用近3天的轉化率去預估**當天目標轉化的水平;同時我們會計算樣本的標準差來說明樣本均值或者概率的波動幅度的大小,從而估計總體資料的波動情況。
點估計還包括了使用最小二乘法對線性回歸做曲線引數的擬合,以及最大似然估計的方法計算樣本集分布的概率密度函式的引數。
區間估計(interval estimation)是依據抽取的樣本,根據一定的正確度與精確度的要求,估算總體的未知引數可能的取值區間。區間估計一般是在乙個既定的置信水平下計算得到總體均值或者總體概率的置信區間(confidence interval),一般會根據樣本的個數和標準差估算得到總體的標準誤差,根據點估計中用樣本均值或樣本概率估計總體均值或總體概率,進而得出乙個取值的上下臨界點。
我們可以將樣本標準差記作s,如果我們抽樣獲取的有n個樣本,那麼總體的標準差σ就可以用樣本標準差估算得到:
從這個公式中我們可以看到大數定理的作用,當樣本個數n越大時,總體指標差σ越小,樣本估計值越接近總體的真實值。excel的圖表裡面也提供了新增「誤差線」的功能:
有了總體的標準差σ,我們就可以使用區間估計的方法計算總體引數在一定置信水平下的置信區間,置信區間(confidence interval)給出了乙個總體引數的真實值在一定的概率下會落在怎麼樣的取值區間,而總體引數落在這個區間的可信程度的這個概率就是置信水平(confidence level)。當抽取的樣本數量足夠大時(一般n>30),根據「中心極限定理」,我們可以認為樣本均值近似地服從正態分佈。
根據z統計量的計算公式:
假如在1-α的置信水平下,則總體均值μ的置信區間為:
這裡樣本均值和標準差都可以根據抽樣的結果計算得到,所以在既定置信水平的條件下,我們只要查z值表(z-score)得到相應的z值就可以計算得到總體均值的置信區間。對於置信水平或者叫置信度的選擇,在統計學中一般認為95%的置信度的結果具有統計學意義,但其實在網際網路領域資料的分析中不需要這麼高的置信度,我們有時也會選擇80%或者90%的置信度,相應的z值見下表:
置信水平1-α對應z值zα/2
95%1.96
90%1.65
80%1.28
對於總體概率的估計,在具備足夠樣本數量的條件下,我們用樣本概率p預估總體概率,而總體概率的標準差則是sqrt(p(1-p)/n),同樣可以計算得到置信區間。
我的部落格吧。
python 實現引數估計 置信區間
1 py實現乙個總體均值的置信區間 mean 樣本均值 std 樣本標準差 sig 總體方差 n 樣本量 confidence 置信水平 功能 構建總體均值的置信區間 alpha 1 confidence z score scipy.stats.norm.isf alpha 2 z分布臨界值 t s...
置信區間與置信度
本文簡要介紹了置信區間這一核心概念,它有助於我們從直觀上理解評價估計優劣的度量方法。假設你想知道美國有多少人熱愛足球。為了得到 100 正確的答案,你可以做的唯一一件事是向美國的每一位公民詢問他們是否熱愛足球。根據維基百科,美國有超過 3.25 億的人口。與 3.25 億人談話並不現實,因此我們必須...
置信區間 confidence interval
置信區間 find an interval such that reasonbly confident that were is a 95 chance that the true p x sampling distribution of the sample mean mean of the sa...