關於貝葉斯學派和頻率學派的問題
每次提到貝葉斯學派和頻率學派的不同之處時,人們都會使用這個例子:
給定資料集xda
ta
x_xd
ata
,如果我們想要確定某乙個引數θ
\theta
θ,頻率學派的做法是arg
maxθ
\mathop\limits_\ | \theta)\}
θargmax
,也就是說「認為θ
\theta
θ是乙個確定的常量,我們只需要找到這個常量的值即可」。而貝葉斯學派的做法則是arg
maxθ
=arg
maxθ
\mathop\limits_\)\} = \mathop\limits_\ | \theta) \cdot p(\theta)) \}
θargmax
=θa
rgmax
,也就是說「認為θ
\theta
θ是乙個隨機變數,我們只需要找到這個隨機變數的分布,然後取概率密度最大的θ
\theta
θ即可」。
但實際上,我個人認為,這裡的說法很讓人摸不著頭腦。單從式子來看,頻率學派並沒有認為θ
\theta
θ是乙個確定的常量,p(x
data
∣θ
)p(x_ | \theta)
p(xdat
a∣θ
)完全可以是θ
\theta
θ的函式(並不是θ
\theta
θ的概率密度函式,因為並不能保證積分一定為1。事實上,它就是似然函式)。那麼這樣解釋的話,兩個學派的唯一區別就出現了:有沒有給似然函式乘上乙個θ
\theta
θ的先驗分布p(θ
)p(\theta)
p(θ)
。顯然,如果θ
\theta
θ在它的定義域(取值合理的集合)內並不服從均勻分布,那麼肯定需要在確定θ
\theta
θ時,要考慮θ
\theta
θ的分布狀況。舉個例子,如果θ
\theta
θ非常非常有可能等於0,那麼即使p(x
data
∣θ=0
)=p(
xdat
a∣θ=
1)
=0.5
p(x_ | \theta=0)=p(x_ | \theta=1)=0.5
p(xdat
a∣θ
=0)=
p(xd
ata
∣θ=1
)=0.
5,我們也應該認為基於當前的觀測事實xda
ta
x_xd
ata
,θ
\theta
θ應該取0而非1,因為它本來就非常非常有可能等於0。
簡而言之,在這件事上,最大似然(ml)做法並不是正確的,激進一點,我們可以說ml就是錯誤的,因為它完全沒有考慮θ
\theta
θ的分布狀況,而map才是真正正確、一點錯誤都沒有,而且解釋起來也非常順利的:給定xda
ta
x_xd
ata
的情況下,最有可能的θ
\theta
θ是多少。之所以使用ml,是因為p(θ
)p(\theta)
p(θ)
一般是不可知的,畢竟是先驗,需要經驗,如果沒有經驗就只能瞎猜。怎麼瞎猜?認為θ
\theta
θ服從均勻分布唄,這樣map就退化為ml了。
深度學習(花書)學習筆記 第十二章 應用
首先深度學習之所以能夠在現在獲得大的突破,主要依靠於硬體技術的進步和大資料的發展。卷積神經網路需要的高併發,依賴於gpu的發展不斷進步,甚至已經有了很多專用裝置,如谷歌tpu,阿里和華為也都有最新針對ai演算法的晶元。高併發時可能導致梯度下降出問題,目前多採用非同步梯度下降。當模型過大時,通常可以通...
深度學習(花書)學習筆記 第十五章 表示學習
本章的表示學習主要就是通過無監督訓練學習特徵的意思。這種沒有具體的演算法,就是介紹表示學習的應用和大概的分支,至於如何進行表示學習,沒有詳細介紹。感覺可以直接跳過。貪心演算法在無監督訓練中的應用,每層只關心當前,進行訓練。無監督指低層訓練的網路在訓練高層時不會改變。後面就是通過實驗證明無監督預訓練好...
紫書學習筆記(1)
這幾天雜七雜八的事情太多,再加上進入了考試周,所以很難有時間安安靜靜的敲敲 看看書,寫寫部落格了。最近寫了一些oj的題目,但是寫到這個份上,發現有些做不動了。因為自己沒有很系統的看過一些演算法競賽書,所以很多時候時間複雜度和空間複雜度都控制不好,所以就想寫一寫前段時間買的劉汝佳的紫書,也就是 演算法...