統計學教程 第六章 抽樣推斷

2021-08-22 18:33:40 字數 3502 閱讀 6240

第六章 抽樣推斷

一.引數與統計量

引數是指描述總體分布狀況的數;

統計量是指由樣本構造出來的數。

例如,乙個班的學生的平均年齡為22歲,平均年齡即為班組總體的乙個引數;在班級中抽出10名學生,了解其年齡,並根據10名學生的年齡計算平均數為21.5歲,則21.5即為由樣本構造出來的統計量。

抽樣推斷,就是由統計量推斷總體的過程。

二.有放回條件下的簡單隨機抽樣(****** random sampling)誤差計算

1.樣本平均數的分布

從乙個總體中抽出一部分單位,構成乙個樣本,可計算出乙個樣本平均數。

無數次抽選的結果,將會產生無數個樣本平均數,這些樣本平均數具有自己的分布形式。根據大數定理,當樣本量超過30時,樣本平均數的分布為正態分佈。

2.基本公式

在有放回條件下,簡單隨機抽樣的誤差計算公式如下

3.統計推斷

利用正態分佈的特徵,可以計算出落在各個區間內的概率。區間的大小一般可以用乙個概率度來表示。

查標準正態分佈表,可以獲得下列概率度與概率值的對應關係

概率度(t) 概率值( p ) 概率度( t ) 概率值( p )

1.28 80% 1 68.27%

1.64 90% 2 95.45%

1.96 95% 3 99.73%

2.58 99%

考察這樣乙個例子:

某總體標準差為100,平均值為40,抽出乙個36個單位構成的樣本,試在95%的置信度水平下,估計樣本平均數的範圍。

從此例子可以逆推:

某總體標準差為100,其乙個36個單位組成的樣本的平均數為40,試在95%的置信度水平下,估計總體平均數的範圍。

4.利用樣本標準差推斷總體標準差

在實踐中,可以使用樣本的標準差作為總體標準差的無偏估計量。

考察這樣乙個例子:

在一批材料中抽查20根測得重量數值如下(單位:公斤)

110 111 111 112 113 114 114 114 115

116 116 117 118 119 119 119 119 120

121 124

試估計這批材料的平均重量,在95%的置信度水平下列出置信區間。

5.無放回條件下的簡單隨機抽樣誤差

可以簡化作

三.影響抽樣誤差的因素

根據抽樣誤差的計算公式,可以看出,影響抽樣誤差的主要因素主要有下列四個方面:

1.目標總體的變異程度

目標總體的變異程度()是影響抽樣誤差的最主要的因素之一,總體的變異程度越大,在確定樣本下的抽樣誤差越大。

2.樣本容量

對於乙個確定的總體,減小抽樣誤差的主要手段就是增加樣本量。從公式中可以知道,抽樣誤差與樣本量的平方根成正比,欲使抽樣誤差縮小一半,必須使樣本量增加到原來的四倍。

3.抽樣方式

有放回抽樣和無放回抽樣的計算公式略有不同,如果採用無放回的方式,抽樣誤差會略小一些。

需要注意,在抽樣比()非常小的情況下,無放回抽樣與有放回抽樣的誤差基本是相同的,可以利用有放回抽樣的誤差計算公式來代替無放回的情況。在這一公式中,沒有總體單位數n的存在,也就是說,當抽樣比非常小的情況下,總體單位數的大小對於抽樣誤差沒有影響。

這就說明了為什麼在大城市進行調查和在小城市進行調查,要獲得同樣的精度時,所需的樣本量相差無幾。

4.抽樣的組織形式。

抽樣的組織形式是純隨機抽樣、分層抽樣、整群抽樣或者多階段抽樣等方式,各種方式都有對應的誤差計算公式,不同情況下的抽樣誤差相差也比較大。

四.樣本量的計算

1.簡單隨機抽樣條件下樣本量的計算公式

樣本量的計算方式是基於無放回簡單隨機抽樣的誤差計算公式

為使抽樣估計的誤差範圍小於某個指定的,需要使樣本量n的值滿足下列式子:

由此計算出來的n是簡單隨機抽樣條件下的樣本量。

考慮這樣乙個例子:

已知某總體的標準差為100,欲在95%的置信度水平下使抽樣估計的誤差範圍小於5,試求樣本量。

2.總體標準差的估算方法

(1)根據以往的經驗數值

對於一些連續進行的調查來說,使用過去的經驗資料進行估算是有可能的。

(2)通過試訪問進行估計

通過試訪問的方法,先獲得少數一部分樣本的誤差資料,然後根據這些資料去計算最終所需要的樣本量,然後再將所需要的樣本量完成。

(3)成數估計條件下採用的最大值法

在成數估計的條件下,方差的最大值為0.25,因此可以使用最大的方差作為推斷最大樣本量的基礎。

(4)序貫抽樣方法

所謂序貫抽樣,是指依次抽取樣本,每抽取一次,進行一次誤差計算,直至達到所需要的精度。

五.其他抽樣方式的抽樣誤差計算

1.分層抽樣(stratified sampling

從計算公式中可以看到,層與層之間的誤差不影響最終的抽樣誤差,因此,分層抽樣應當努力使層間差異大,層內差異小。

當各層的調查費用相等時,樣本的最優分配為

這一分配公式稱為neyman分配。

2.整群抽樣(cluster sampling

3.多階段抽樣(multi-stage sampling

多階段抽樣的誤差計算取決於各階段的抽樣方式,以最簡單的二階段抽樣為例,如果每一階段的抽選都是簡單隨機抽樣,一階單位的規模相同,則有下列公式:

其中:為第一階段的抽樣比,為第二階段的抽樣比。

為總體一階單位間的方差;

為第二階段的單位間方差。

4.設計效應的計算

當因子小於1時,說明抽樣設計的效率高於srs。

如果乙個複雜抽樣的因子可以估計,則對應相同精度的簡單隨機抽樣樣本量,複雜抽樣設計的樣本量為:

醫學統計學 第六章 總體均數的估計

1 抽樣誤差 由於隨機抽樣的偶然因素使樣本各單位的結構不足以代表總體各單位的結構,而引起抽樣指標和全域性指標的絕對離差。2 樣本均數的抽樣分布特點 3 均數的標準誤 樣本均數的標準誤差稱為均數的標準誤 standard error of mean sem 用 x 表示,說明了各樣本均數 x 圍繞總體...

mysql第六章 第六章 mysql日誌

第六章 mysql日誌 一 錯誤日誌 錯誤日誌的預設存放路徑是 mysql 存放資料的地方 hostname.err 1.修改錯誤日誌存放路徑 mysqld log error data mysql mysql.log 2.檢視配置命令 show variables like log error 3...

python 教程 第六章 模組

第六章 模組 1 模組 sys模組 位元組編譯的.pyc檔案,優化編譯後生成pyo檔案 2 from.import語句 import sysprint the command line arguments are for i in sys.argv print iprint n nthe pytho...