前面我們講解了正態分佈的重要知識點(戳此閱讀《一文搞懂「正態分佈」所有重要知識點》),在文中,我們強調,理解正態分佈是搞懂「假設檢驗」和「置信區間」等內容的關鍵點。但關鍵的基礎並非只有「正態分佈」,今天我們要談的「抽樣」和「抽樣分布」也是其中之一。
抽樣,就是從研究的總體中抽取一部分個體作為我們真正的研究物件,可以簡單把樣本理解為總體的乙個子集,通過樣本的結果來推測總體情況。比如我們想知道中國成年男性的平均身高,理論上最準確的辦法是調查中國所有成年男性的身高,然後計算平均數。很顯然,沒人這樣做。
實際的做法總是抽取一部分人,然後計算這部分人的平均身高,由這個平均身高來大致估計總體的平均身高。邏輯聽起來很簡單也很像那麼回事,但為什麼這是可行的?要回答這個問題其實就要弄懂抽樣以及抽樣分布的知識。
1. 抽樣調查:樣本統計量vs總體引數
在上文身高調查的例子中我們簡單介紹了抽樣,它作為一種調查方法應用的十分普遍。抽樣調查(sampling survey)與我們聽過的普查(census)對應,嚴格而言,是指通過隨機抽樣的方法,對特定時點、特點範圍內人群的乙個代表性樣本進行調查,然後通過樣本的統計量來估計總體情況,即總體引數。這裡有兩個術語,何為樣本統計量?什麼又叫總體引數?
實際上,這兩個術語的數學計算幾乎沒有區別,只是乙個是針對樣本,乙個是針對總體。比如,同樣是均數,如果是通過乙個樣本計算得來的,叫樣本統計量;如果是通過總體計算的,叫總體引數。
再舉一例,某疾病的患病率,由樣本計算的為樣本統計量,一般稱為樣本率;由總體計算(比如通過普查)得到的稱作為引數,也稱總體率。所以,簡單而言,無論是樣本均數還是樣本率都叫做樣本統計量。
另外,值得一提的是,這兩個概念——均數和率其實不像大家想象的那樣「天壤之別」,樣本率實際上可以看做是乙個二分類(0和1)變數的樣本均數。試想,乙個樣本中患病的記做1,不患病的記做0,患病的比例實際上就是這個0-1變數的樣本均數。
與普查相比,抽樣調查雖然省時、省力、省錢,但由於調查終究是針對樣本開展,為了保證結果能推測總體,其在設計、實施以及資料分析方面均要複雜許多,並且應盡可能保證抽樣過程的隨機化和足夠的樣本量。同時,對於變異過大的研究物件或者患病率太低的疾**為需要很大的樣本量,有時不太適合用抽樣調查。
2. 抽樣方法
抽樣的目的是為了通過樣本獲得總體的資訊,所以關鍵點是怎麼抽樣才能保證獲得的樣本具有代表性,下面,我們簡單介紹幾種常用的抽樣方法。
簡單隨機抽樣(****** random sampling)。原理和我們抽撲克牌、**一樣,就是從乙個固定的總體中(比如有n個物件),利用抽籤或其他隨機方法(如隨機數表)抽取n個物件。所謂隨機,是指總體中每乙個物件被抽中的概率相等。假設兩個人抽撲克牌比大小,兩個人抽中大王的概率其實一樣,都是1/54。
對於小型總體,簡單隨機抽樣很好操作,但是總體越大,簡單隨機抽樣就越難實行。比如,從全國人口中隨機抽取1萬名調查物件,則意味著,需要像抽牌一樣從14億中抽出1萬,即便可以通過身份證號碼等記錄進行抽樣,但如何定位這些樣本將會是乙個浩大的工程。因此,現實調查過程中,簡單隨機抽樣並非直接被用,往往是與其他抽樣方法結合起來使用。
系統抽樣(systematic sampling)。這種抽樣方法的核心在於確定乙個所謂的「抽樣間隔」。比如將總體物件隨機編號,從1至100,我們只抽取編號個位數是7的物件,即編號為7,17,27,…的樣本,本質上他們相鄰的編號有乙個固定的間隔——10。
系統抽樣可以在不知道總體的具體數目的情況下進行,只需確定乙個抽樣間隔,但應用中需注意總體可能呈現的週期性趨勢(如季節性趨勢),比如採用每相隔一年抽一次的辦法,則有可能抽取的樣本都來自同乙個季節,很顯然這個抽樣的結果難以代替總體。
分層抽樣(stratified sampling),是指先將總體按照某種特徵分為若干層,比如按照性別分為男女兩層,然後再從每一層內進行簡單隨機抽樣。分層的目的就在於提公升樣本對總體的代表性,提高估計的精確度,比如一般的理工院校男生多女生少,採用分層抽樣可以保證男性和女性樣本都能被抽中。
整群抽樣(cluster sampling),是將總體分成幾個群,比如我國開展的大型調查一般會以省或地區為群,先採用簡單隨機抽樣的方法抽取群,然後從抽中的群中再抽取相關的個體進行研究。現實過程中可以將抽中的群中的所有物件作為研究樣本,也可以在群內部再次進行抽樣獲得部分調查物件作為樣本。
以上即為幾種常見的抽樣方法,實際操作中,尤其是大型的調查,一般將上述方法結合起來分階段實施,稱為「多階段抽樣(multistage sampling)」,從而充分利用各種抽樣方法的優勢,克服各自不足。
3. 抽樣分布
明白了抽樣和各種常用抽樣方法的基本概念,我們開始重點學習抽樣分布。第一點要清楚:抽樣分布說的是對誰的分布?答案是樣本統計量,比如樣本均數或樣本率。
以樣本均數為例,一般說樣本均數的抽樣分布如何如何,這裡,樣本均數被當成了乙個隨機變數來看待。這或許是本文最核心、也是我們最希望大家記住的要點:樣本均數是乙個隨機變數,但對於初學者,這確實是比較反直覺的。
為何樣本均數可以被當做乙個隨機變數?因為樣本均數是依賴樣本計算得出的:每抽取一組樣本都可以計算出乙個樣本均數,而且這些樣本均數或多或少都會有些差異。由此,樣本均數會隨著抽樣的不同而隨機變動。只是現實生活中我們一般只抽取一組樣本,計算乙個樣本均數,因此,會覺得樣本均數不變。
現在,我們按照同樣的方法重複抽100次,每次都抽取1000人。在這個過程中我們實際一共調查了10萬人,不過這10萬人以1000人為一組被分成了100個樣本,而每一組都可以計算乙個樣本均數,假設分別為:1.76,1.72,1.69,1.77,……,1.75。
由此,我們一共獲得了100個樣本均數,從而可以對這100個數求平均數和標準差,於是就得到了樣本均數的平均數和標準差(這個標準差一般稱為樣本均數的標準誤)。有點類似網際網路的時髦語——迭代,這裡用樣本均數對原總體進行了一次迭代。
為什麼要這樣做?為什麼不直接一次性調查10萬人,而要繞這麼個圈子?很簡單,這裡100次的重複抽樣僅僅是輔助大家理解,現實**於成本的考慮,往往只會抽取一次。更重要的是,統計理論告訴我們即使只抽樣一次也是極具價值的,這個理論就是你聽過的——中心極限定理(central limit theorem)。
這個定理的數學表示式有些複雜,但好在其中的邏輯很簡單:在任意總體中隨機抽取乙個樣本量為n的樣本,如果樣本容量較大(通常大於30即可),那麼通過這個樣本計算的樣本均數近似服從正態分佈,其核心思想可以很好地由下面這幅圖來表達:
注意上圖,第一行是x的分布情況,其餘都是不同樣本量下的樣本均數的分布。如何獲得這些圖?實際上就是通過我們上面講到的重複抽樣的過程。從最後一行可見,當樣本量n=30時,無論x**於何種總體,其樣本均數總近似服從正態分佈。下面通過簡單的數學符號,明確一下各種表達:
類似樣本均數,我們可以用同樣的邏輯來研究樣本率的抽樣分布。
很顯然,這裡的0.3只來自於乙個樣本,如果我們重複進行多次抽樣,同樣計算工資高於1.5萬的比例,很可能不會完全等於0.3。比如重複抽樣100次(實際調查1萬名員工,但不排除有員工被重複抽中),就可以獲得100個樣本率,由此,可以以樣本率為研究物件,計算它的平均數和標準差。
同時,根據中心極限定理,樣本率(這裡看做乙個新的隨機變數)也會近似服從正態分佈,由此,可以依據正態分佈的性質對其進行研究,如假設檢驗(比如檢驗「公司員工工資高於1.5萬的比例是否達到1半」,類似單樣本t檢驗)和置信區間的估計。
由此可見,樣本率和樣本均數雖然用於對不同變數的統計描述,但從抽樣分布的角度而言,其含義幾乎完全一致。不僅如此,後續你會看到各種統計方法諸如回歸分析等,對關鍵係數的假設檢驗與區間估計,都是依賴樣本量的抽樣分布近似服從正態分佈而展開的。
因此,看到這裡,你應該能真正體會到上一講我們對正態分佈重要性的講解:因為抽樣分布概念的引入以及中心極限定理的應用,我們不再害怕原總體分布是否服從正態分佈,只要樣本量滿足一定要求(通過很易達到),根據樣本計算的各種統計量幾乎都服從正態分佈,從而均能用正態分佈的性質來進行研究。
1. 流行病學(第八版).詹思延等.人民衛生出版社
2. 商務與經濟統計(第八版).安德森(anderson d r.)等. 中信出版出版社
常用的統計量和抽樣分布
一 統計量 樣本均值 即在總體中的樣本資料的均值,反映樣本資料的集中趨勢。樣本方差 每個樣本值與全體樣本值平均數之差的平方值的平均數 方差是用來衡量隨機變數和其數學期望 均值 之間的偏離程度。樣本變異係數 變異係數又稱為離散係數,定義為標準差與平均值之比,樣本變異係數即樣本資料的標準差與其均值之比。...
車輛到達服從什麼分布 交通工程習題
第一章緒論 1.簡述交通工程學的定義 性質 特點及發展趨勢。2.簡述我國交通現狀及交通工程學科所面臨的任務。3.簡述交通工程學科的研究範圍 重點及這門學科的重要作用。4.從我國目前的交通現狀和國外交通的發展程序來看,你認為我國交通的發展 方向如何?當前應著力解決哪些問題?第二章交通特性分析 1.交通...
11 三個重要統計量的分布 1
假設檢驗問題的基礎內容,三大抽樣分布在多元形態下的推廣。目錄 chi 2 得複習節。設 x i sim n 1 mu i,sigma 2 i 1,n 且相互獨立,記 x left begin x 1 vdots x n end right 則 x sim n n mu mu 1,mu n sigma...