花書學習筆記 雜記

2021-10-10 02:02:53 字數 1793 閱讀 6439

關於貝葉斯學派和頻率學派的問題

每次提到貝葉斯學派和頻率學派的不同之處時,人們都會使用這個例子:

給定資料集xda

ta

x_xd

ata​

,如果我們想要確定某乙個引數θ

\theta

θ,頻率學派的做法是arg

maxθ

\mathop\limits_\ | \theta)\}

θargmax

​,也就是說「認為θ

\theta

θ是乙個確定的常量,我們只需要找到這個常量的值即可」。而貝葉斯學派的做法則是arg

maxθ

=arg

maxθ

\mathop\limits_\)\} = \mathop\limits_\ | \theta) \cdot p(\theta)) \}

θargmax

​=θa

rgmax

​,也就是說「認為θ

\theta

θ是乙個隨機變數,我們只需要找到這個隨機變數的分布,然後取概率密度最大的θ

\theta

θ即可」。

但實際上,我個人認為,這裡的說法很讓人摸不著頭腦。單從式子來看,頻率學派並沒有認為θ

\theta

θ是乙個確定的常量,p(x

data

∣θ

)p(x_ | \theta)

p(xdat

a​∣θ

)完全可以是θ

\theta

θ的函式(並不是θ

\theta

θ的概率密度函式,因為並不能保證積分一定為1。事實上,它就是似然函式)。那麼這樣解釋的話,兩個學派的唯一區別就出現了:有沒有給似然函式乘上乙個θ

\theta

θ的先驗分布p(θ

)p(\theta)

p(θ)

。顯然,如果θ

\theta

θ在它的定義域(取值合理的集合)內並不服從均勻分布,那麼肯定需要在確定θ

\theta

θ時,要考慮θ

\theta

θ的分布狀況。舉個例子,如果θ

\theta

θ非常非常有可能等於0,那麼即使p(x

data

∣θ=0

)=p(

xdat

a∣θ=

1)

=0.5

p(x_ | \theta=0)=p(x_ | \theta=1)=0.5

p(xdat

a​∣θ

=0)=

p(xd

ata​

∣θ=1

)=0.

5,我們也應該認為基於當前的觀測事實xda

ta

x_xd

ata​

,θ

\theta

θ應該取0而非1,因為它本來就非常非常有可能等於0。

簡而言之,在這件事上,最大似然(ml)做法並不是正確的,激進一點,我們可以說ml就是錯誤的,因為它完全沒有考慮θ

\theta

θ的分布狀況,而map才是真正正確、一點錯誤都沒有,而且解釋起來也非常順利的:給定xda

ta

x_xd

ata​

的情況下,最有可能的θ

\theta

θ是多少。之所以使用ml,是因為p(θ

)p(\theta)

p(θ)

一般是不可知的,畢竟是先驗,需要經驗,如果沒有經驗就只能瞎猜。怎麼瞎猜?認為θ

\theta

θ服從均勻分布唄,這樣map就退化為ml了。

深度學習(花書)學習筆記 第十二章 應用

首先深度學習之所以能夠在現在獲得大的突破,主要依靠於硬體技術的進步和大資料的發展。卷積神經網路需要的高併發,依賴於gpu的發展不斷進步,甚至已經有了很多專用裝置,如谷歌tpu,阿里和華為也都有最新針對ai演算法的晶元。高併發時可能導致梯度下降出問題,目前多採用非同步梯度下降。當模型過大時,通常可以通...

深度學習(花書)學習筆記 第十五章 表示學習

本章的表示學習主要就是通過無監督訓練學習特徵的意思。這種沒有具體的演算法,就是介紹表示學習的應用和大概的分支,至於如何進行表示學習,沒有詳細介紹。感覺可以直接跳過。貪心演算法在無監督訓練中的應用,每層只關心當前,進行訓練。無監督指低層訓練的網路在訓練高層時不會改變。後面就是通過實驗證明無監督預訓練好...

紫書學習筆記(1)

這幾天雜七雜八的事情太多,再加上進入了考試周,所以很難有時間安安靜靜的敲敲 看看書,寫寫部落格了。最近寫了一些oj的題目,但是寫到這個份上,發現有些做不動了。因為自己沒有很系統的看過一些演算法競賽書,所以很多時候時間複雜度和空間複雜度都控制不好,所以就想寫一寫前段時間買的劉汝佳的紫書,也就是 演算法...