這章主要介紹概率分布及其特性。這些基本的分布可以像堆積木一樣形成更複雜的模型。討論了一些統計學的關鍵概念,比如 bayesian inference。概率分布的乙個角色是:給定乙個隨機變數x有限集合的觀察值x1,x2….xn,對概率分布p(x)進行建模,即概率密度估計。首先介紹離散型貝努力分布、二項式分布和多項式分布和連續型的gaussian分布。乙個特殊
的問題就是引數化估計問題,根據觀察的值來估計概率分布的引數,frequentist方式,可以採用似然函式的方法,貝葉斯方式,首先引入乙個引數的先驗分布,然後根據觀察資料計算後驗分布。本章另乙個重要的概念是共軛先驗,它讓後驗分布具有和先驗一樣的函式形式,這能夠極大的簡化貝葉斯分析。比如多項式的引數的共軛分布式是dirichlet分布,高斯分布期望引數的共軛先驗仍是高斯分布。這些分布都是指數系列的分布,他們具有很多重要的性質。引數估計的方式的缺陷是首先假定了分布的函式,這在一些應用中並不適用,一種可選擇的方式是非引數密度估計,它的分布形式很大程度依賴於現有資料的規模,這些模型仍然有隱含引數,但是它只是用於控制模型的複雜度而不是分布的形式。本章最後介紹了三個非引數的估計histograms,最鄰近方法,核方法。
2.1 二元變數
首先介紹二元分布和二項式分布,給出了期望和方差,並通過最大似然函式的方法估計引數u的值。
2.1.1
這節介紹了beta分布,介紹了關於引數引入先驗分布,然後通過觀察似然函式因子,選擇先驗的形式使其和似然函式具有相似的形式,然後根據先驗概率和似然函式的乘積計算出後驗概率,和先驗具有一樣的形式,這種特性被稱為共軛。beta分布是二項分布的共軛先驗分布,介紹了超引數的概念。
通過共軛分布,可以每次觀察乙個資料,然後計算後驗分布,並將先驗分布更新為後驗分布,繼續觀察學習,這種方式被稱為順序學習。
2.2 多元變數
這節首先介紹了使用1 of k的形式表示的多元分布,通過最大似然函式的方法估計引數u,然後引入k個變數的聯合分布多項式分布。
2.2.1 dirichlet distribution
首先通過研究多項式引數分布引數uk的先驗分布,引入了dirichlet distribution。引入乙個******x的概念,關於******x,二維的就是以(0,1)和(1,0)為端點的線段,三維的就是以(0,0,1),(0,1,0),(0,0,1)為端點的三角形的內部。然後通過將先驗和似然函式相乘得到後驗分布,仍然是dirichlet distribution。事實上dirichlet分布是多項式分布的共軛先驗。現在比較火的topic model、lda就是使用了dirichlet distribution。
2.3 高斯分布
在第一章已經介紹了高斯分布,引入了d-維變數的高斯分布,給出了期望和協方差矩陣。。高斯分布的最大增益仍然是高斯分布。多個隨機變數之和的均值,隨著變數的增加,越趨向於高斯分布。
隨後介紹了高斯分布的幾何屬性,引入了馬氏距離(mahalanobis distance)。然後考慮協方差矩陣式對稱矩陣,通過其特徵值和特徵矩陣表示特徵矩陣及其逆矩陣。引入乙個新的座標系統,被定義為正交矩陣ui從xi座標移動並做了旋轉變換,然後介紹在新的座標系下高斯分布的形式。
2.3.1 高斯條件分布
把乙個多維的變數分成兩部分,然後通過分塊矩陣運算,得到
μa|b = μa + σabς^−1bb (xb − μb)
σa|b = σaa − σabς^−1bb σba.
2.3.2 高斯邊緣分布
聯合分布p(xa,xb)如果是高斯分布,那麼條件分布仍然是高斯分布。邊緣分布也是
高斯分布。根據聯合分布的指數二次形式可以有效地得到邊緣分布,進而得到均值
和方差。
聯合分布的二次形式可以使用精度的分塊矩陣來表示,我們的目的是對xb進行積分,
首先考慮和xb相關的項,與xb相關的項是乙個標準的二次形式。
我們通過對指數部分積分,然後進行規範化即可,又由於標準的高斯分布,規範化的
分母只和方差矩陣相關,和均值無關。我們可以得到很簡潔的使用分塊精度矩陣表示
的均值和方差:
e[xa] = μa
cov[xa] = σaa
2.3.3 關於高斯變數的貝葉斯理論
給定高斯分布p(x)和條件分布p(y|x)
p(x) = n(x|μ,λ^-1)
p(y|x) = n(y|ax + b,l^-1)
關於y的邊緣分布和x關於y的條件分布為:
p(y) = n(y|aμ + b,l?1 + aλ^-1at)
p(x|y) = n(x|σ,σ)
σ = (λ + a^t la)^1
2.3.4 高斯分布的最大似然估計(待續)
《模式識別和機器學習》資源
作者主頁 prml作者christopher m.bishop發布的樣章 勘誤 習題答案 講義等資料,參考書是經典的 pattern recognition and machine learning by chris bishop springer 2006 and probabilistic gr...
《機器學習》 周志華 (第二章學習筆記)
誤差 過擬合 已經把訓練樣本自身的一些特點當做了所有潛在樣本都會具有的一般性質,這樣就會導致泛化效能下降,這樣的現象叫做過擬合,與之相對的是 欠擬合 泛化誤差 vs 經驗誤差 留出法 直接將擁有的資料集分成兩個互斥的集合,其中乙個是訓練集,乙個為測試集 交叉驗證法 先將資料集分成k個大小相似的互斥子...
PRML筆記 模式識別與機器學習
prml筆記 notes on pattern recognition and machine learning.pdf 知乎pattern recognition and machine learning這本書怎麼看?介紹了概率論,區分了經典概率論 frequentist 和 bayesian理論...