概率論與數理統計 小結2 隨機變數概述

2022-04-10 09:42:57 字數 2974 閱讀 9317

注:對隨機變數及其取值規律的研究是概率論的核心內容。在上乙個小結中,總結了隨機變數的概念以及隨機變數與事件的聯絡。這個小結會更加深入的討論隨機變數。

隨機變數的本質是一種函式(對映關係),在古典概率模型中,「事件和事件的概率」是核心概念;但是在現代概率論中,「隨機變數及其取值規律」是核心概念。

隨機變數與事件的聯絡與區別

小結1中對這兩個概念的聯絡進行了非常詳細的描述。隨機變數實際上只是事件的另一種表達方式,這種表達方式更加形式化和符號化,也更加便於理解以及進行邏輯運算。不同的事件,其實就是隨機變數不同取值的組合。在陳希孺的書中,舉了乙個很好的例子來說明兩者之間的差別:

對於隨機試驗,我們所關心的往往是與所研究的特定問題有關的某個或某些量,而這些量就是隨機變數。當然,有時我們所關心的是某個或某些特定的隨機事件。例如,在特定一群人中,年收入在萬元以上的高收入者,以及年收入在3000元以下的低收入者,各自的比率如何?這看上去像是兩個孤立的事件。可是,若我們引入乙個隨機變數$x$:

$$ x = 隨機抽出乙個人其年收入 $$

則x是我們關心的隨機變數。上述兩個事件可分別表示為$ \ $或$ \ $。這就看出:隨機事件這個概念實際上包容在隨機變數這個更廣的概念之內。也可以說,隨機事件是從靜態的觀點來研究隨機現象,而隨機變數則是一種動態的觀點,一如數學分析中的常量與變數的區分那樣,變數概念是高等數學有別於初等數學的基礎概念。同樣,概率論能從計算一些孤立事件的概率發展為乙個更高的理論體系,其基本概念就是隨機變數。

一下子引用了一大段話,這段話非常清楚的解釋了隨機變數與事件的區別:就像變數與常量之間的差別那樣,這樣的差別比起我自己看到的要大得多。做這樣的比較也有利於自己更好的理解「隨機變數」這個多少有點抽象的概念。

隨機變數從其可能取的值全體的性質可以分為兩大類:離散型隨機變數和連續型隨機變數。

離散型隨機變數

離散型隨機變數的取值在整個實數軸上是間隔的,要麼只有有限個取值,要麼是無限可數的。

圖1:離散型隨機變數的概率質量分布函式

常見的離散型隨機變數包括以下幾種:

連續型隨機變數

連續型隨機變數的取值要麼包括整個實數集$ ( -\infty, +\infty ) $,要麼在乙個區間內連續,總之這類隨機變數的可能取值要比離散型隨機變數的取值多得多,它們的個數是無限不可數的。

圖2:連續型隨機變數的概率密度分布函式

常見的連續型隨機變數包括以下幾種:

概率密度函式的性質

所有的概率密度函式$f(x)$都滿足下面的兩條性質; 所有滿足下面兩條性質的一元函式也都可以作為概率密度函式。

$ f(x) \geq 0 $, 以及 $ \int_^ f(x)dx = 1 $.

隨機變數最主要的性質是其所有可能取到的這些值的取值規律,即取到的概率大小。如果我們把乙個隨機變數的所有可能的取值的規律都研究透徹了,那麼這個隨機變數也就研究透徹了。隨機變數的性質主要有兩類:一類是大而全的性質,這類性質可以詳細描述所有可能取值的概率,例如累積分布函式和概率密度函式;另一類是找到該隨機變數的一些特徵或是代表值,例如隨機變數的方差或期望等數字特徵。常見的隨機變數的性質見下表:

縮寫

全拼

中文名

解釋

cdfcumulative distribution function

累計分布函式

連續型和離散型隨機變數都有,一般用$f(x)$表示

pdfprobability density function

概率密度分布函式

連續型隨機變數在各點的取值規律,用$f(x)$或$f_x(x)$表示

pmfprobability mass function

概率質量分布函式

離散隨機變數在各特定取值上的概率

rvsrandom variate sample

隨機變數的樣本

從乙個給定分布取樣

ppfpercentile point function

百分位數點函式

cdf的反函式

iqrinter quartile range

四分位數間距

25%分位數與75%分位數之差

sdstandard error

標準差用於描述隨機變數取值的集中程度

semstandard error of the mean

樣本均值的估計標準誤差,

簡稱平均值標準誤差

ciconfidence interval

置信區間

表1:常見的隨機變數的性質

概率質量函式 vs 概率密度函式

概率質量函式和概率密度函式不同之處在於:概率質量函式是對離散隨機變數定義的,本身代表該值的概率;概率密度函式是對連續隨機變數定義的,本身不是概率,只有對連續隨機變數的概率密度函式在某區間內進行積分後才是概率。

累計分布函式 vs 百分位數點函式

累積分布函式的定義為$f(x) = p(x \leq x) = \sum p(x \in (-\infty, x])$, 因此累積分布函式是給定$x$求概率;

百分位數點函式是累積分布函式的反函式,是已知概率求符合該條件的$x$.

歡迎閱讀「概率論與數理統計及python實現

」系列文章

《概率論與數量統計》,陳希孺,中國科學技術大學出版社,2023年2月第一版

中國大學mooc:浙江大學,概率論與數理統計

隨機變數 概率論

一,定義 設隨機實驗的樣本空間是s e x x e 是定義在樣本空間s上的實值單值函式,稱x x e 為隨機變數.如下圖畫出了樣本點與實數x x e 對應的示意圖.1,首先隨機變數是乙個函式 2,該函式是作用在全體樣本空間上的 3,輸出為數值 4,輸出值唯一 解析 如果把樣本空間理解成所有事件的集合...

概率論 隨機變數

在進行試驗時,相對於試驗的實際結果而言,我們可能更關注於試驗結果的某些函式。例如,在擲兩枚骰子的試驗中,我們並不關心每個骰子的具體數值,而是關心兩枚骰子的點數之和。定義 定義在樣本空間上的實值函式,稱為隨機變數。由於隨機變數的取值由試驗結果決定,所以我們也會對隨機變數的可能取值指定概率,關於隨機變數...

概率論與數理統計 2

看乙個例子 盒子中有5個球,其中3個紅球,隨機取2個,注意問的問題?取到1個紅球的概率至少取到乙個紅球的概率無法取到紅球的概率取到2個紅球的概率取到紅球的個數 1 4的概率都是乙個數值,而取到紅球的個數則可能是0,1,2,但這些結果是隨機的,那麼稱取到紅球的個數為乙個隨機變數,並且求出各個取值的概率...