分布函式(英文cumulative distribution function, 簡稱cdf),是概率統計中重要的函式,正是通過它,可用數學分析的方法來研究隨機變數。分布函式是隨機變數最重要的概率特徵,分布函式可以完整地描述隨機變數的統計規律,並且決定隨機變數的一切其他概率特徵。
我們已經很清楚函式的概念,g = g(x)是乙個典型的函式,輸入資料經過g(x)的處理後得到了乙個新的輸出g。在概率當中,也存在類似的定義。
例如乙個樣本空間有一系列隨機事件ω = ,那麼將存在乙個函式,這個函式把事件對映為乙個實數:
這樣做是為了用數學去表達事件——函式最終將轉換為數,有了數,我們就能利用很多已知的工具去處理概率問題。如果ω表示球隊的比賽事件,那麼ω = ,乙個典型的x轉換就是:勝→1,負→-1,平→0。二進位制的0和1也能表達很多諸如開/關、公升/降等事件。
有了函式x,就可以進而將事件的概率轉換為普通的函式,於是有了分布函式的定義:
f(x)就是分布函式,它表示x ≤ x的概率。舉例來說,如果乙個人的身高是1.75m,這個人的身高在全國的分布就是所有小於等於1.75m的人在全國的比例。看起來英文cumulative distribution function更容易理解,f(x)就是概率的積累。
需要注意的是,此處的大x和小x都是乙個具體的實數,小x的取值範圍是 -∞ ≤ x ≤ +∞,這是乙個什麼梗?
這要從座標系說起了。
上圖中的曲線是f(x),-∞ < x < +∞,對於任意的x,都有乙個y能夠對應。同樣,對於概率分布函式f(x)來說,我們也希望對任意的x都能找到對應的y,也就是p(x≤x)。別忘了,我們的目的是將事件轉換為數,從而將概率轉換為函式。從概率的角度來講,-∞ < x < +∞表示了概率的全部事件。
離散型事件指事件可能的取值是有限個或可列無窮個。
有限個好理解,比如骰子的結果。可列無窮個有意思了,它指值能夠例舉出來,但是永遠無法全部列舉,自然數和整數就是這樣的例子。
這裡有個好玩的事,整數是無窮的,自然數也是無窮的,那麼整數和自然數的數量哪個更多呢?
第一感覺是整數更多,多了一倍。但真相是,二者的數量一樣多。這就要了解數學中是怎樣定義「一樣多」的。在數學中,如果兩個集合能夠產生一一對應的關係,我們就可以說這兩個集合的資料一樣多。這個對應關係可以用乙個函式表示,比如整數和自然數的對應可以是這樣:
無論哪乙個整數,都能在自然數中找到唯一的對應。
整數和實數呢?實數的個數要遠遠大於整數,它們無法產生一一對應,因為每兩個實數間都有無窮多個數。這就又引出乙個問題,實數的個數與[-1, 1]區間內的實數個數哪個多呢?第一感覺又是實數多,但實際上二者的個數相等。這個匪夷所思的問題可以用下圖表示,說明二者一一對應:
上圖是乙個數軸,數軸上的每乙個點都代表乙個實數;現在把-1到1之間的線段的向上彎折,得到乙個與0點相切,弧長是2的紅色圓弧。現在,把數軸上的任意點與弧連線,都可以在弧上找到唯一點:
由此可見,二者的數量相等,準確的說是「勢」相等。
離散事件的每個取值都對應乙個概率,它的分布率大概長成這個樣子:
它的分布函式:
在所有的分布函式中,x的取值範圍都是關鍵,它強調了「事件」到「函式」的轉換。
在射擊比賽中,有大、中、小三類目標供選擇,各類目標的得分和命中率如下:
其中score對應了x的取值,rate對應分布值f(x),f(x)的分布曲線如下:
這裡又一次強調了分布函式f(x)中x的取值是從-∞到+∞。當x<1時,表示沒有任何目標可供射擊,命中率是0; x ≤ 2時,命中中型和中型以下目標的概率是f(2) = p(middle) + p(small) = 1/3 + 1/2 = 5/6;x ≥ 5時,變成了必然事件,f(x) = 1。
我們看到f(x)的取值是[0, 1],這也是概率的取值範圍;這種階梯式的函式就是離散型隨機事件的分布函式。
相對於離散事件,連續事件就是隨機事件是連續型的事件。這是通俗解釋,看起來沒錯,但並不精確。
在精確定義之前先來看乙個好玩的例子:乙個人會在9:00~10:00到達某地,他恰巧在9:30抵達的概率是多少?
似乎很簡單,但實際上不是那麼回事,問題出在時間的度量上。前面說過,0~1之間的實數有無窮多個,同樣,由於我們並沒有指定時間的最小刻度,所以9:00~10:00之間的也有無窮多個,這相當於樣本空間的事件有無窮個。如果用幾何概型思考——將概率轉換為長度的比例——我們會發現,9:30是時間軸上的一點,點的長度是0,所以p = 0。過去一直認為0概率是不肯能發生的事件,而現在看來並不是,因為確實存在9:30抵達的可能,這有點像極限問題了,極限是0,說明無限接近0,但始終不是0。
似乎出現悖論了,無數個點加在一起變成了線,點的概率又是0,那麼連續事件的分布豈不是無數個0相加最終還是0?
解釋前先寫出連續事件的精確定義:對於某一x,如果存在非負可積函式f(x),使得
則稱x是連續型隨機事件。
答案就是使用積分。使用f(t)dt就可以計算微小的面積:
關於微分和積分的相關知識可參考:《單變數微積分》中的相關章節。
現在概率終於和積分聯絡在一起了,前方的視野也更加廣闊起來。
以正態分佈為例:
f(t)被稱為概率密度,或概率密度函式;f(x)表示f(t)與x軸圍成的面積:
由此可以看出,連續型隨機事件的分布函式也一定是連續的。
出處:
條件概率分布 聯合概率分布和邊緣概率分布
一.聯合概率分布 小明玩扔飛鏢,飛鏢偏離靶心是不確定的,所以適合用概率模型來描述。先已知飛鏢偏離靶心與標靶距離和風速都有關。假定標靶距離可以是10 20公尺,風速可以是1 10公尺 秒,現統計每個標靶距離 每個風速下,小明所扔飛鏢小於1厘公尺的概率。距離 公尺 風速 公尺 秒 偏離小於1厘公尺的概率...
條件概率分布與邊緣概率分布
1.條件概率分布 這是理解馬爾科夫鏈的重要概念,單獨成文 設x和y分別是概率分布 如正態分佈那種直觀的 那麼 x,y 就是聯合概率分布,又稱為二維隨機變數。這種聯合概率分布就不那麼直觀了。但用條件概率分布這個概念定義,可以把抽象變為形象。具體這樣做,假設x是均勻分布,1 10這個數字出現的可能性都是...
uniform分布 概率分布
概率密度函式表示 表示乙個特定範圍的值的發生概率import numpy as np 正態分佈概率密度函式 均勻分布的概率分布函式是什麼形狀呢?在某這個範圍之外,沒有任何值,在這個範圍之內,則是一條水平直線,因為所有值出現的概率都是相同的 均勻分布圖 指數概率分布函式,其函式值以指數方式下降。指數下...