簡單介紹貝葉斯統計學的歷史背景
什麼是統計推斷
bayesian和frequentist的主要區別
先驗分布和後驗分布
歷史背景
2023年,也就是英國學者bayes去世後兩年,他的一篇傳世遺作發表了,其中提出了bayes公式。
bayes公式從形式上看,它只不過是條件概率定義的乙個簡單的推論,這個「簡單的公式」為什麼會導致統計學中乙個學派的崛起。
這是因為貝葉斯在文章中點明了一種全新的統計學歸納推理的思想,直到二十世紀前中期,在jeffreys、keynes等學者的推動下,貝葉斯學派取得了較大的影響,而貝葉斯學派和頻率學派的經年苦鬥成為了學術界非常著名的論戰,至今依然沒有分出高下。
統計推斷是什麼
統計推斷,或者叫做推斷統計學(statistical inference)是指統計學中研究如何根據樣本資料去推斷總體數量特徵的方法。統計推斷主要可以分為兩大類:一類是引數估計問題;另一類是假設檢驗問題。
統計推斷的任務,就是根據樣本去作出某種關於總體的未知引數的概率形式的論斷。比如對未知引數 θ
\theta
θ 的值作乙個估計或者判斷 θ
\theta
θ 的區間。
統計推斷可能使用如下三種資訊:
一 總體資訊,即總體分布或所屬分布族的資訊。
二 樣本資訊,即從總體抽取的樣本的資訊。
三 先驗資訊,即在抽樣之前有關統計問題的一些資訊,主要**於經驗和歷史資料。
貝葉斯統計學
只使用第一種和第二種資訊進行的統計推斷被稱為經典統計學,也叫做頻率學派,它的基本觀點是把資料(樣本)看成是來自具有一定概率分布的總體,所研究的物件是這個總體而不限於資料本身。
基於上面三種資訊進行的統計推斷叫做貝葉斯統計學。它和頻率學派的主要差別在於是否利用先驗資訊。貝葉斯統計學對先驗資訊的收集挖掘和加工,使其數量化,形成先驗分布,提高統計推斷的質量。
例如,假定投擲一枚普通的硬幣3次,每次都是正面朝上。frequentist的極大似然模型在估計硬幣正面朝上的概率時,結果會是1,表示所有未來的投擲都會是正面朝上!相反,乙個帶有任意的合理的先驗的bayesian方法不會得出這麼極端的結論。
先驗分布
貝葉斯學派的最基本的觀點是:任何乙個未知量 θ
\theta
θ 都可以看作乙個隨機變數,應該使用乙個概率分布去描述 θ
\theta
θ,這個概率分布是在抽樣前就有的,被稱為先驗分布
那麼問題也來了,如何確定先驗分布?
這也是貝葉斯統計學的真正的難點。
後驗分布
根據貝葉斯公式,後驗分布:
π (x
∣θ)=
p(x∣
θ)π(
θ)∫θ
p(x∣
θ)π(
θ)d(
θ)
\pi(x|\theta)=\frac p(x|\theta)\pi(\theta)d(\theta)}
π(x∣θ)
=∫θ
p(x∣
θ)π(
θ)d(
θ)p(
x∣θ)
π(θ)
其中 π(θ
)\pi(\theta)
π(θ)
是先驗概率分布, π(θ
∣x
)\pi (\theta | x)
π(θ∣x)
是後驗概率分布,分母是關於 x 的邊緣概率分布。
分母是關於x的邊緣概率分布,在給定觀測資料的情況下,它是乙個歸一化常數,確保了左側的後驗概率分布是乙個合理的概率密度,積分為1。
後驗分布集中了總體,樣本和先驗三種資訊中有關 θ
\theta
θ 的一切資訊,而又排除了一切與 θ
\theta
θ 無關的資訊之後(對 θ
\theta
θ 的積分)所得的結果,故基於後驗分布進行統計推斷更為有效和合理。
得出了後驗分布以後,對引數 θ
\theta
θ 的任何統計推斷,都只能基於這個後驗分布,這符合人們認識事物的通常程式:在試驗前關於引數θ
\theta
θ的認識(先驗分布)的基礎上,由於有了新的資訊(樣本),使我們修正了原來的認識,體現在後驗分布中。
貝葉斯學派認為,樣本的唯一作用在於它可以使我們對 θ
\theta
θ 的認識起到轉化。
注意,在貝葉斯統計推斷中一些頻率學派的方法不能用了,比如無偏性,矩估計,極大似然估計在某些條件下可以使用。
發展
貝葉斯框架源於18世紀,但是貝葉斯方法的實際應用一直受限,原因是貝葉斯後驗分布在高維計算上的困難,執行完整的貝葉斯步驟的困難性較大,尤其是需要在整個引數空間求和或者求積分,貝葉斯統計推斷非常難以實現,這在做**或者比較不同的模型時必須進行。
取樣方法的發展,例如馬爾可夫蒙特卡羅(mcmc),加上計算機速度和儲存容量的巨大提公升,使貝葉斯技術應用更加方便。
21世紀以來,有很多高效的判別式方法被提出,例如變分貝葉斯( variational bayes)和期望傳播(expectation propagation),讓貝葉斯方法能夠應用於大規模的應用中。
空間抽樣與統計推斷 貝葉斯統計學簡介
1763年,也就是英國學者bayes去世後兩年,他的一篇傳世遺作發表了,其中提出了bayes公式。bayes公式從形式上看,它只不過是條件概率定義的乙個簡單的推論,這個 簡單的公式 為什麼會導致統計學中乙個學派的崛起。這是因為貝葉斯在文章中點明了一種全新的統計學歸納推理的思想,直到二十世紀前中期,在...
統計學條件概率 貝葉斯公式
1.分類加法計數原理場景 從甲地到乙地,可以乘火車 汽車 輪船。火車有 4 班 汽車 2 班 輪船 3 班,那麼一天中乘坐這些交通工具從甲地到乙地有多少種不同的走法?2.分步乘法計數原理場景 從 a 到 b 的道路有 3 條,從 b 到 c 的道路有 2 條,那麼從 a 到 b 到 c 總共有多少種...
統計學中的頻率學派與貝葉斯學派
對於技術應用人員來說,我們更看重方法的應用,但有時候對知識的背景做一些了解,我覺得還是挺有必要的,能幫助我們理解一些東西。這篇博文裡,不會呈現任何計算公式,只是討論一下貝葉斯學派與頻率學派之間的問題。貝葉斯學派與頻率學派是當今數理統計學的兩大學派,基於各自的理論,在諸多領域中都起到了重要作用。自20...