總體引數的估計(概念)

2021-09-07 05:32:31 字數 1731 閱讀 6915

舉例:到底北京人同意北京大力發展軌道交通,由於不大可能詢問所有的一千多萬北京市民,人們只好進行抽樣調查以得到樣本,並用樣本中同意發展軌道交通的比例來估計真實的比例,從不同的樣本得到的結論也不會完全一樣。雖然真實的比例在這種抽樣過程中永遠不可能知道,但有可能知道估計出來的比例和真實的比例大致差多,從資料得到關於總體引數的一些結論的過程就叫做統計推斷

總體代表人們所關心的那部分世界。而在利用樣本中的資訊來對總體引數進行推斷之前,人們往往對代表總體的變數假定了分布族。在假定了總體分布族之後,進一步對總體的認識就是要在這個分布族中選擇乙個與人們所關心的問題有關的具體分布。由於分布族成員是由引數決定的,如果能夠估計出引數,對總體的具體分布就知道的差不多了。

那麼,哪些是分布的引數呢?正態分佈族中的成員被(總體)均值和標準差完全確定,bernoulli分布族的成員被概率(或比例)p完全決定。因此如果能對這些引數進行估計,總體分布也就估計出來了。 估計當然要根據從總體所抽取的樣本來確定。 那麼樣本的(不包含未知總體引數的)函式稱為統計量,而用於估計的統計量稱為估計量。由於乙個統計量對於不同的樣本取值不同,所以,估計量也是隨機變數,並有其分布。 當然,如果樣本已經得到,資料已經代入,估計量就有了乙個數值,也就不是隨機的了,這個數字稱為該估計量的乙個實現或取值,也稱為乙個估計值

估計,分為兩種,一種是點估計,也就是用估計量的實現值來近似相應的總體引數。另一種是區間估計,它是包括估計量在內(有時是以估計量為中心)的乙個區間,該區間被認為很可能包含總體引數。點估計給出乙個數字,用起來方便,而區間估計給出乙個區間,留有餘地,不想點估計那麼絕對。

區間估計

當你描述乙個人的體重時,你不會說這個人是82.11公斤,而是說這個人是七八十公斤,或者在七十到八十公斤之間。提供的這個範圍就是某種區間估計。再例如,在調查某機構的民意檢測中,該候選人的支援率在75%,誤差是3%,置信度是95%,這樣的說法意味著下面三點:

1、樣本中的支援率為75% ,這是用樣本比例作為對總體比例的點估計。

2、估計範圍為75%上下百分之3的誤差,那麼區間為(72%,78%)。

3、如果用類似的方式,重複抽取大量(樣本量相同的)樣本時,產生的大量類似區間中有些會覆蓋真正的p,而有些不會,但這些區間中大約有95%會覆蓋真正的總體比例。

這樣得到的區間被稱為總體比例p的置信度為95%的置信區間(confidence interval)。這裡的置信度又稱置信水平置信係數

兩個正態總體均值之差的區間估計:

例如:我國兩個地區的一些城市2023年的城鎮家庭人均消費性支出資料。這裡,假定這種支出服從正態分佈。在資料中(無論哪種形式)收入是一列,變數名為expend,而區域為另一列,變數名為area。

希望分別得到這兩個總體均值和標準差的點估計(即樣本均值和樣本標準差)和個子總體均值的95%置信區間,利用r語句:

w = read.table("expend.txt",header = t) #讀入資料。

x = w[w[,2] == 1,1]; y=w[w[,2] == 2,1] #分開兩個區域

mean(x);sd(x);mean(y);sd(y)#得到個子的均值和標準差:

作為兩個總體均值估計量的樣本均值分別為4562.53和5413.72,而樣本標準差分別為599.831和785.121

總體引數估計概述

統計推斷 statistical inference 就是根據樣本的實際資料,對總體的數量特徵作出具有一定可靠程度的估計和判斷。統計推斷的基本內容有引數估計和假設檢驗兩方面。概括地說,研究乙個隨機變數,推斷它具有什麼樣的數量特徵,按什麼樣的模式來變動,這屬於估計理論的內容,而推測這些隨機變數的數量特...

引數估計 狀態估計的基本概念(1)引數估計問題

如果乙個系統的引數隨時間而改變,那麼稱它為 時變的引數 如果系統的引數不隨時間而改變,那麼稱它為 時不變的引數 對引數 其中 是第 次觀測量,是第 次觀測雜訊量 我們要找到乙個關於 次觀測 的函式 在某種意義下作為 對 的統計量。我們稱這個函式 為 的 估計量 estimator 函式值被稱為 的估...

python引數估計 引數估計簡介及概念介紹 下)

引數估計簡介及概念介紹 下 引數估計簡介及概念介紹 下 請求快取 支援請求快取功能,支援對get請求設定快取訪問,並設定有效期。有兩種方式可以設定請求快取 路由設定 可以在路由規則裡面呼叫cache方法設定當前路由規則的請求快取,例如 定義get請求路由規則 並設定3600秒的快取 route ge...