概率論複習 – 基礎概率分布
發現對概率論的基本概念理解不是很深入,導致看後面的東西時常有些莫名其妙的疑惑,回頭來看看概率論與統計
cdf其定義為fx
(x)=
p(x≤
x)正如統計學完全教程裡說的,這個cdf函式是很有迷惑性的,有必要仔細理解它。我以前每次看這個表示式都是一閃而過,沒有好好理解,而它的真正的意義應該是表示隨機變數小於或等於其某乙個取值x的概率。設乙個例子,拋一枚均勻的硬幣兩次,設隨機變數x表示出現正面的次數,那麼p(x
=0)=
p(x=
2)=1
/4,p(
x=1)
=1/2
,所以這個函式的曲線如下圖:
對於這個圖,要想清楚清楚如下兩個問題:
1)為什麼函式始終是右連續的? 因為根據cdf的表示式中的小於等於號,當x=x時,p(x=x)的那部分應該被加到f
x上,因此在x=x處有乙個值的躍公升。如x=1時,p(x=1)已經是1/2了
2)為什麼fx(
1.4)
=0.75
? 要注意p(1
≤x<2)
=1/2
(雖然其實x只能取整數值),但是f
x是值x之前所有概率的累加,所以fx(
1.4)
可不是1/2,而是3/4 !!
因此f函式始終是非降的,右連續的,且limx→
∞f(x
)=1對於離散隨機變數的pdf為:fx
(x)=
p(x=
x)對於連續隨機變數,若存在乙個函式f
x對所有x均滿足fx(
x)≥0
,∫baf
x(x)
dx=1
,並且有p(
a<
x
=∫ba
fx(x
)dx則f
x就是fx(
x)的pdf,並且fx(
x)=∫
x−∞f
x(t)
dt, fx(x
)=dd
xfx(
x)表面看起來這個定義簡單,但是要深入理解這些式子的含義,這個定義對後面整個機器學習的內容都是最基礎最重要的。
其實後面所謂的 density estimation(em algorithm和sampling methods)都是要估計出乙個pdf來。
最簡單的pdf就是比如翻硬幣的例子,假如翻正面概率0.4,反面0.6,則這個模型的pdf就是
稍微複雜點的pdf就是univariate gaussian啦,其實也不複雜,高中就見過
伯努利分布就是對單次拋硬幣的建模,x~bernoulli(p)的pdf為f(x
)=px
(1−p
)1−x
,隨機變數x只能取。對於所有的pdf,都要歸一化!而這裡對於伯努利分布,已經天然歸一化了,因此歸一化引數就是1。
很多次拋硬幣的建模就是二項分布了。注意二項分布有兩個引數,n和p,要考慮拋的次數。
二項分布的取值x一般是出現正面的次數,其pdf為:f(
x)=p
(x=x
)=p(
x=x|
n,p)
=cxn
px(1
−p)n
−xcx
n就是二項分布pdf的歸一化引數。如果是beta分布,把cxn
換成beta函式分之一即可,這樣可以從整數情況推廣為實數情況。所以beta分布是二項分布的實數推廣!
多項分布則更進一層,拋硬幣時x只能有兩種取值,當x有多種取值時,就應該用多項分布建模。
這時引數p變成了乙個向量p⃗ =
(p1,
…,pk
)表示每乙個取值被選中的概率,那麼x~multinomial(n,p)的pdf為:f(
x)=p
(x1,
…,xk
|n,p
⃗ )=(
nx1,
…,xk
)px1
1…px
kk=n
!∏ki
=1xi
!∏px
ix
概率論複習 基礎概率分布
概率論複習 基礎概率分布 發現對概率論的基本概念理解不是很深入,導致看後面的東西時常有些莫名其妙的疑惑,回頭來看看概率論與統計 cdf其定義為 f x x p x x 正如統計學完全教程裡說的,這個cdf函式是很有迷惑性的,有必要仔細理解它。我以前每次看這個表示式都是一閃而過,沒有好好理解,而它的真...
概率論基礎
概率論 第一章 隨機事件及其概率 分為兩類 1.確定性現象 2.隨機現象 1.1隨機事件及其運算 1.隨機試驗與樣本空間 隨機試驗具有下列三個特徵 1 試驗可在相同條件下重複進行 2 試驗的結果不止乙個 3 每次實驗之前,不能判定哪乙個結果將會出現 用e表示隨機試驗。試驗e中的每乙個可能結果稱為基本...
概率論基礎概念
基礎概念 比如篩子一共有6個數字,樣本空間就是 如果連續拋三次,樣本空間的大小就是 當然還有連續的樣本空間比如 拋篩子結果為1的事件 拋篩子結果為6的事件,稱之為基本隨機事件。在這些基本隨機事件的基礎之上,可以進行任意組合,稱之為復合隨機事件。在基本隨機事件中,產生的結果都是樣本空間中的乙個元素 而...