概率論與數理統計 課程小報告

2022-05-23 16:48:09 字數 4444 閱讀 1192

眾所周知,統計學所研究的就是如何有效地收集與研究物件相關的有隨機性的資料,對其進行分析,從而在給定模型下對研究物件某個特徵進行統計推斷的問題。這其中,研究物件的全體被稱為總體或統計總體,對於總體我們關心的不外乎兩個方面:1、總體的某個特徵取值的全體,即取哪些值;2、取這些值的可能性大小。總的來說就是總體的分布,也正因此,我們通常用隨機變數x來表示總體,其分布記為$f_x(x)$。有時總體分布中若干引數$\theta=(\theta_1,\theta_2,...,\theta_n)$未知,因此常把總體分布記為$f_x(x,\theta)$。然而現實情況下,由於總體的容量可能很大,要對資料一一收集進而給出其分布的經濟性和可操作性不是很高也往往不可能,因而我們只能從總體中按一定規則抽取出一些個體資料,並進行統計推斷。這些個體構成的集合被稱為乙個樣本,記為($x_1$,$x_2$,$...$,$x_n$),其中的n被稱為樣本大小,又稱樣本容量。需要注意到的是,樣本具有二重性:1、在抽樣方案實施前,我們把樣本視為隨機變數,以便進行理論研究;2、在抽樣方案實施後,樣本就是一組確定的常數,記為($x_1$,$x_2$,$...$,$x_n$)。而規則通常有兩種:1、有放回抽樣;2、不放回抽樣。下面我們只考慮有放回抽樣。可以發現,在有放回抽樣下的隨機變數$x_1,x_2,...,x_n$為獨立同分布$(iid)$,且和總體$x$一樣,取同樣的值且分布相同。因此,有如下表述:$(x_1,x_2,...x_n)$~$\prod_^nf_x(x_i,\theta)$。

通過總體和樣本概念的給出,進行乙個小的總結:統計推斷問題的本質就是在總體的分布未知的情況下,通過對收集到的樣本資料的研究,推斷出研究物件的某個特徵(可能是研究物件的分布情況即總體的分布,也可能是其某個數字特徵如:平均數、中位數、數學期望、方差等)。為刻畫總體的待求特徵,我們往往不直接使用樣本本身,而是對其進行加工,針對不同的問題構造樣本的適當函式進行研究。而這,就引入了統計量的概念,統計量,即樣本的函式,需要注意的是:1、此時樣本仍被視為隨機變數;2、統計量中除樣本外,無其它未知引數。它被記為$g(x_1,x_2,...,x_n)$。要使用統計量進行推斷,顯然要知道它的分布,統計量的分布被稱為抽樣分布。若總體的分布函式已知,抽樣分布是確定的,然而要求出統計量的精確分布通常是困難的。由於正態分佈各種好的性質,基於正態總體的前提下,數理統計學的大佬們給出了「三大抽樣分布」,它們也被稱為「統計學三大分布」。而本文,正是想學習並介紹其中那個名字非常獨特的著名分布——「學生-t分布」(student's t-distribution)。

那麼,就先從它的命名歷史談起。初一看到這個名字,我的想法是1、可能發現t分布的大佬名字就叫「student」,然而這種可能**覺不是很大因為以前貌似沒見過這麼奇葩的姓氏;2、可能那位大佬是在學生時代提出t分布的發現的,就好像德布羅意憑藉他的博士**就獲得諾貝爾物理學獎一樣。通過查閱資料,了解到原來所謂「student」是那位大佬的筆名,而大佬的名字叫威廉·戈塞(william sealy gosset,1876.6.13-1937.10.16,後文用『大佬』代稱以表尊敬)。大佬最初在牛津大學學習化學和數學,2023年畢業後在愛爾蘭都柏林arthur guinness 啤酒廠任釀酒化學技師,從事試驗和資料分析工作。19世紀末,數理統計學界終於普遍意識到中心極限定理的重要性(雖然這個定理的第一版於2023年就已經被法國數學家棣莫弗發現,並由法國著名數學家拉普拉斯於19世紀初擴充套件)。定理的基本思想如下:一組獨立同分布的隨機變數$x_1,x_2,...,x_n$的算術平均$\bar$,在n充分大時近似地服從均值為$\mu$,方差為$\frac$的正態分佈。在數理統計中,這一結果是大樣本統計推斷的基礎。因此,可以等價地說:樣本均值的分布隨著樣本容量n的增大,越來越接近正態分佈,通常這個n$\geq30$。然而,大佬工作中所作實驗的樣本容量都不是很大,一般只有5個。當他對每個樣本計算樣本均值和樣本方差$\bar=\frac\sum_x_i$、$s^2=\frac\sum_……(x_i-x)$,則樣本均值標準化後$t=\frac(\bar-\mu)}$的分布本應近似於標準正態分佈,但是他獲得t的觀察值後發現t在(-1,1),(-2,2),(-3,3)內的頻率 0.626,0.884,0.960與標準正態分佈n(0,1)在相應區間上的概率 0.683,0.995,0.997 相差較大。於是,大佬憑藉他敏銳的洞察力懷疑當樣本容量較小時,t的分布是否是乙個不屬於正態分佈族的其它分布呢?為研究這個問題,大佬在1906-2023年去倫敦大學學習統計,並與著名統計學家karl pearson(1857-1936,老pearson,統計學之父、pearson education 培生教育出版集團的創始人,統計三大分布中「卡方分布」的提出者——又乙個大佬)和他的兒子egon sharpe pearson(1895-1980,小pearson,應該也是大佬)共同討論。終於得到新的密度函式曲線,並於2023年(當時大佬32歲)以「student」的筆名發表次研究結果。在當時正態分佈作為「萬能分布」的時代裡,代表統計學最高的水平的k. pearson(即老pearson)只研究大樣本問題,他認為小樣本是與統計精神相違背的、是危險傾向。因而,t分布並沒有被外界理解和接受。直到2023年(距大佬發表t分布15年後)另一位著名統計學家fisher(1890~1962,「統計三大分布」之f分布的提出者,三個大佬齊了。。。)也遇到小樣本問題並發現t分布的實用價值,同時給出了嚴格但簡單的推導,並在2023年編制t分布表。至此,大佬的小樣本方法終於被學術界承認,並迅速傳播、發展和應用。為了感謝戈塞的功勞,費雪將此分布命名為學生t分布(student's t)。學生t分布開啟了人們新思路,開創了小樣本研究方法,在歷史上具有劃時代的意義。

下面,由於個人水平有限只能淺層次介紹t分布。首先,是其用處,援引維基百科的話:

t分布用於根據小樣本來估計呈正態分佈且方差未知的總體均值。如果總體方差已知(例如在樣本數量足夠多時)則應該用正態分佈來估計總體均值。

下面是維基百科中對t分布的具體描述:

具體地,

1、圖中隨機變數$z$的分布的推導是簡單的,由於是正態總體,因此我們可以設$x$ ~ $n(\mu,\sigma2)$,同時由正態分佈的性質和獨立同分布的性質易知:$\bar=\frac\sum_x_i$ ~ $n(\mu,\sigma^2)$。等價地,就得到正態總體樣本均值標準化後的分布即為標準正態分佈的結論。

2、圖中隨機變數$t$的分布即是大佬想要解決的問題。我們發現:1的結論建立在總體均值和方差均已知的情況下,但是若方差未知,此時我們可以用總體方差的無偏估計$s^2$來代替總體方差,那麼得到的樣本均值的分布可以證明服從自由度為n-1的t分布。(證明過程就省略了,具體可見課本第六章第三節的定理3)

實際上,t分布的密度函式和正態分佈的密度函式很類似,這裡給出對照的影象:

最後,只能淺薄地再贅述下t分布在區間估計中的使用。通過學習我們知道,統計推斷的兩個基本問題是估計問題和假設檢驗問題,在估計中,通過矩估計和最大似然估計我們可以對總體的某個特徵,或數學地表述,某個引數進行估計,但由於我們得到的只是乙個具體的近似值,這通常不夠。我們還想估計出乙個範圍,並希望知道這個範圍包含總體引數的可信程度。這就引出了區間估計和置信區間的概念。而t分布,就用於在總體方差未知的情況下,對總體均值的區間估計之中。先明確一下問題:確定好置信度$\alpha$,待求的是對總體均值估計的區間(也即置信區間的上下界):

$p(\mu\in(\bar±d))\geq1-\alpha$

推得$p(|\bar-\mu|\leq d)\geq1-\alpha$

注意:上式的$\mu$是未知引數但不具有隨機性,真正具有隨機性的是$\bar$,概率也是相對於$\bar$而言的,即$\mu$位於該置信區間的可信程度。明顯地,當樣本方差已知時由上一段的結論1,我們可以得到

$p(|\frac-\mu}}| \geq \frac}) \leq \alpha$且$|\frac-\mu}}|$~$n(0,1)$

所以:$\frac}\geq u_$

因此我們可以得出d的值,進而得到置信度$\alpha$對應的置信區間為

$(\bar±\frac}z_)$

但是,這是在總體方差已知的情況下,那麼如果總體方差未知,我們選擇$s^2$來代替總體方差,並由上一段的結論2類似地得到

$p(|\frac-\mu}}| \geq \frac}) \leq \alpha$且$|\frac-\mu}}|$~$t(n-1)$

因此,總體方差未知的情況下,總體均值$\mu$的置信區間是

$(\bar±\frac}t_(n-1))$

綜上所述,本文告一段落。總的來說,本文首先總結概率論與數理統計課程統計部分的幾個基本概念,然後引出三大統計分布,進而介紹其中學生t分布的歷史,並給出t分布簡單的數學描述和應用。

參考資料

1、學生t-分布

2、3、概率論與數理統計(陳希孺)

4、概率論與數理統計(盛驟,謝式千)

概率論與數理統計

概率論與數理統計是研究和揭示隨機現象統計規律性的一門數學學科。1,有一類現象,在一定條件下必然發生,這類現象稱為確定性現象。例如,石子必然下落,同性電荷必然相互排斥。2,在試驗或觀察之前不能預知確切的結果,但是在大量重複試驗或觀察下,結果卻呈現出某種規律性。這種在大量重複試驗或觀察中所呈現出的固有規...

概率論與數理統計 2

看乙個例子 盒子中有5個球,其中3個紅球,隨機取2個,注意問的問題?取到1個紅球的概率至少取到乙個紅球的概率無法取到紅球的概率取到2個紅球的概率取到紅球的個數 1 4的概率都是乙個數值,而取到紅球的個數則可能是0,1,2,但這些結果是隨機的,那麼稱取到紅球的個數為乙個隨機變數,並且求出各個取值的概率...

概率論與數理統計 3

扔硬幣不是正就是反 扔骰子的點數是1,2,3,4,5,6 打靶要麼中標要麼不中 這些結果數值都是明確可以取值的.稱為離散型隨機變數 圓的角度 0 360,可以有小數點 某人上班8點到9點之間到,這個結果集無法列舉 乙個燈泡的使用壽命 這些數值都無法列舉,但可在其範圍內取任一實數就稱為連續型隨機變數 ...