概率論與數理統計 小結7 統計學中的基本概念

2022-04-10 09:42:45 字數 2408 閱讀 1310

注:概率論方面就暫時告一段落,終於可以說說統計方面的事情了。如果說概率論中主要是研究隨機變數的方法學和理論模型,那麼統計學就是利用概率論這一強大的工具來研究具有隨機性的現象(結果的不確定性)。而研究這些隨機現象最重要的方法就是,大量重複試驗進而找到其統計規律性。一般步驟為:重複試驗(例如反覆測量,多次觀察等)並記錄試驗結果,然後對這些實驗資料進行整理、分析和建模。最終達到對隨機現象的某些規律進行**並指導我們的決策的目的。下面對一些基本概念做乙個總結。

概率論、數理統計都是研究隨機現象的統計規律性的數學分支,但兩者研究角度不同。

概率論:從已知分布出發,研究隨機變數$x$的性質、規律、數學特徵等;

數理統計:研究物件$x$的分布未知或只知道部分資訊,需要觀察它的取值(資料採集),通過分析資料來推斷$x$服從什麼分布或確定未知引數。

樣本與總體的概念,在前面已經多次接觸到,只是沒有非常明確的給出定義。例如我們一般假設某個學校全體學生的身高,用隨機變數$x$表示,近似服從正態分佈,這裡的正態分佈就是"總體"的分布,字面意思就是所有待研究物件的集合。在實際的資料分析中,我們通過觀察或其他測量方式得到的資料一般都只是待研究物件的乙個子集,這個子集就是乙個樣本(可以包含多個個體)。例如通過某種方式,從全體學生中找出100名學生,這100名學生就是乙個樣本。樣本與總有之間的關係,有兩種可能的情況:

總體:研究物件的全體;

個體:總體中的成員;

總體的容量:總體中包含的個體數;

有限總體:容量有限的總體;

無限總體:容量無限的總體,通常將容量非常大的有限總體也按無限總體處理。

樣本,總體&隨機變數

樣本容量:樣本中所含個體的數目;

抽樣:抽取樣本的過程;

由於抽樣的隨機性,樣本也具有隨機性,通常容量為n的樣本用隨機變數 $x_1, ..., x_n$ 來表示,

簡單隨機樣本:若 $x_1, x_2, ..., x_n$ 是相互獨立的(獨立性)且與總體 $x$ 有相同的分布(代表性),則稱 $x_1, x_2, ..., x_n$ 為來自總體 $x$ 的乙個容量為n的簡單隨機樣本,簡稱為 $x$ 的乙個樣本。獲得簡單隨機樣本的抽樣稱為簡單隨機抽樣。如果沒有特殊說明,統計裡面所說的樣本都指的是簡單隨機樣本。

樣本($x_1, x_2, ..., x_n$)的每乙個觀察值($x_1, x_2, ..., x_n$)稱為樣本值或樣本的一次實現。

樣本值的集合稱為樣本空間

總體分布決定了樣本取值的概率規律,因而可以由樣本值去推斷總體。數理統計的主要任務之一就是研究如何根據樣本推斷總體。

聯合分布函式:若總體 $x$ 的分布函式為 $f(x)$,$x_1, x_2, ..., x_n$ 為來自 $x$ 的乙個樣本,則樣本($x_1, x_2, ..., x_n$) 的聯合分布函式為:

$$f(x_1, x_2, ..., x_n) = \displaystyle \prod_^nf(x_i)$$

統計量的概念存在於樣本中,是對樣本某個指標的概括,例如上面例子中選出來的100位學生的平均身高就是乙個統計量。統計量區別於"個體量"(我自己生造的詞),具有以下兩個特點:

因此只要樣本確定,統計量的值就可以直接計算出來。例如一旦選定100位學生,他們的平均身高就可以計算出來。

定義

樣本的不包含任何未知引數的函式。通常可以通過構造統計量的方式,從樣本中提取有用的資訊來研究總體的分布以及各種特徵數。

常用統計量

從上面可以看到:樣本的均值等於樣本的1階原點矩;但是樣本的方差不等於樣本的2階中心距(在總體中這兩者是相等的);

用統計量估計總體的數字特徵

當總體數字特徵未知時,

上面用到的表示矩的符號,請參考小結5中,矩那部分的符號說明。

以上估計的理論基礎就是大數定律。值得注意的是,總體的均值$\mu$是乙個數,可能已知,也可能未知;而樣本均值$\bar$是乙個隨機變數,依賴於樣本值。

統計量的分布被稱為抽樣分布。

當總體$x$服從一般分布(如指數分布、均勻分布等),要得出統計量的分布是很困難的;當總體$x$服從正態分佈時,統計量$\bar$、$s^2$是可以計算的,且服從一定的分布。這些分布就是下面要介紹的三大抽樣分布——$\chi^2$分布,$t$分布,$f$分布。

歡迎閱讀「概率論與數理統計及python實現

」系列文章 

中國大學mooc:浙江大學&哈工大,概率論與數理統計

概率論與數理統計

概率論與數理統計是研究和揭示隨機現象統計規律性的一門數學學科。1,有一類現象,在一定條件下必然發生,這類現象稱為確定性現象。例如,石子必然下落,同性電荷必然相互排斥。2,在試驗或觀察之前不能預知確切的結果,但是在大量重複試驗或觀察下,結果卻呈現出某種規律性。這種在大量重複試驗或觀察中所呈現出的固有規...

實用概率論與數理統計學 筆記

1.一次同時抽取兩個球,和不放回一次抽取乙個球抽取兩次球有什麼區別?答 差別在於,一次抽乙個,抽出來的兩個會有先後順序 而同時抽兩個不會。因此兩次抽的組合數是一次抽的兩倍。2.如何理解事件的獨立性?答 可以理解為a事件的發生對b事件的發生概率不產生影響。例如今天下雨 a事件 對彩票中獎號碼 b事件 ...

概率論與數理統計 2

看乙個例子 盒子中有5個球,其中3個紅球,隨機取2個,注意問的問題?取到1個紅球的概率至少取到乙個紅球的概率無法取到紅球的概率取到2個紅球的概率取到紅球的個數 1 4的概率都是乙個數值,而取到紅球的個數則可能是0,1,2,但這些結果是隨機的,那麼稱取到紅球的個數為乙個隨機變數,並且求出各個取值的概率...