深度學習(花書) 概率與資訊理論

2021-10-10 13:38:51 字數 3191 閱讀 5517

連續:伴隨著實數值

概率分布:用來描述隨機變數或一簇變數在每乙個可能取值的狀態的可能性的大小。

常見概率分布

bernoulli分布:單個二值隨機變數的分布,它由單個引數 $

\emptyset \in [0,1]控制,

控制,控制

,\emptyset$給出了隨機變數等於1的概率

multinoulli分布(分類分布):是指在具有k個不同狀態的單個離散型隨機變數的分布,k是有限的。

高斯分布(normal distribution)稱為高斯分布:

n (x

;μ,σ

2)=1

2πσ2

exp(

−12σ

2(x−

μ)2)

n(x;\mu, ^2)=\sqrt^2}}}exp(-\frac^2}^2)

n(x;μ,

σ2)=

2πσ2

1​​e

xp(−

2σ21

​(x−

μ)2)

正態分佈被兩個引數控制,μ∈r

\mu \in r

μ∈r和 σ∈(

0,∞)

\sigma \in (0,\infty)

σ∈(0,∞

),前乙個引數是分布均值,給出中心峰值座標,第二個引數表示分布的標準誤差,其平方為分布方差。

當不了解資料集分布時,優先選擇正態分佈作為先驗知識。

選擇正態分佈分原因

指數分布和laplace分布

指數分布:在 x=0 點處取得邊界點的分布

p (x

;λ)=

λ1x≥

0exp

(−λx

)p(x;\lambda)=\lambda1_exp(-\lambda x)

p(x;λ)

=λ1x

≥0​e

xp(−

λx)指數分布中 x取負值的概率為零

laplace分布將這種邊界點擴充套件,允許在任意一點 μ

\muμ設定概率分布的峰值

l ap

lace

(x;μ

,γ)=

12γe

xp(−

∣x−μ

∣μ)laplace(x;\mu,\gamma)=\fracexp(-\frac)

laplac

e(x;

μ,γ)

=2γ1

​exp

(−μ∣

x−μ∣

​)分布的混和

通過組合一些簡單的概率分布來定義新的概率分布的方法,稱為構造混合分布(mixture distribution),混和分布由一些元件(component)分布構成。每次實驗,樣本是由那個元件分布產生的取決於從乙個multinoulli分布中取樣的過程:

p (x

)=∑i

p(c=

i)p(

x∣c=

i)p(x)=\sum_i p(c=i )p(x\mid c=i)

p(x)=∑

i​p(

c=i)

p(x∣

c=i)

混合模型是組合簡單概率分布來生成更豐富分布的一種簡單策略。

常用函式

logistic sigmoid函式:

α (x

)=11

+exp

(−x)

\alpha (x) = \frac

α(x)=1

+exp

(−x)

1​logistic sigmoid函式通常用來產生bernoulli分布中的引數 ϕ

\phi

ϕ通常由sigmoid函式產生。sigmoid函式在變數取絕對值非常大的正值或負值時會出現飽和(saturate)現象,對微笑改變得不敏感

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-lm6tnhua-1605351828039)(en-resource://database/2493:1)]

另乙個函式時softplus函式(softplus function)

ζ (x

)=lo

g(1+

exp(

x))\zeta(x)=log(1+exp(x))

ζ(x)=l

og(1

+exp

(x))

softplus函式可以用來產生正態分佈 β

\beta

β和α\alpha

α 引數,因其範圍是(0,

∞)(0,\infty)

(0,∞

), 另乙個函式平滑形式:

x +=

max(

0,x)

x^+=max(0,x)

x+=max

(0,x

)貝葉斯規則

連續性變數的技術細節

資訊理論

結構化概率分布

無向:帶有無向邊的圖,將因子分解表示成一堆函式,這些函式不是任何型別的概率分布。g中全部相連 的節點構成的集合稱為 團。無向模型中每個團c

ic^i

ci都伴隨著乙個因子 ϕi(

ci)\phi^i(c^i)

ϕi(ci)

,這些因子是函式而不是概率分布,每個因子的輸出必須是非負的。

隨機變數的聯合概率和所有這些因子的乘積成比例,即因子值越大可能性越大,歸一化常數z被定義為ϕ

\phi

ϕ函式乘積的所有狀態的求和或者積分,概率分布為:

概率論與資訊理論 前言

概率論是用於表示不確定性宣告的數學框架。概率論使我們能夠提出不確定性宣告以及在不確定性存在的情況下進行推理,而資訊理論使我們能夠量化概率分布中的不確定性總量。資訊理論是應用數學的乙個分支,主要研究的是對乙個訊號能夠提供資訊的多少進行量化。在本系列教程中我們主要使用資訊理論的一些關鍵思想來描述概率分布...

AI聖經 深度學習 讀書筆記(三) 概率與資訊理論

概率論使我們能夠提出不確定的申明以及在不確定性存在的情況下進行推理,而資訊理論使我們能夠量化概率分布中不確定性的總量。我們用概率來表示一種信任度,概率直接與事件發生的頻率相聯絡,稱為頻率派概率。概率涉及到確定性水平,稱為貝葉斯概率。期望 對隨機變數的值求平均。方差 衡量的是當我們對x xx依據它的概...

資訊理論學習

條件熵和聯合熵 h x y z h x z h y x,z h x,y z h x z h y x,z h x,y z h x z h y x,z 互資訊基本性質 對稱性x,y顛倒位置相等 非負性肯定大於等於零 級值性互資訊不可能比自身還大 可加性 例題題目 25個銅幣有一枚質量不同,通過天平最少能...