下面來推導概率論的加和與乘法規則
假設兩個隨機變數x和y,隨機變數x可以隨機取任意的\(x_i, i=1,2,..., m\),隨機變數y可以隨機取任意的\(y_j,j=1,2,...,l\)。進行n次試驗,對x和y都進行了取樣,把\(x=x_i\)且\(y=y_i\)出現的試驗次數記為\(n_\)。並且把x取值為\(x_i\)(與y的取值無關)出現的試驗次數記為\(c_i\), 類似地,把y取值為\(y_j\)的試驗數量的次數記為\(r_j\)。
x取值為\(x_i\)且y取值為\(y_j\)的概率記為\(p(x=x_i,y=y_j)\),被稱為\(x=x_i\)和\(y=y_i\)的聯合概率(joint probability)。它的計算方法為落在單元格i,j的點的數量與總的點數的比值,即
\(p(x=x_i,y=y_j)=\frac}\) (1.5)
類似地,x取值\(x_i\)的概率被記為\(p(x=x_i)\),它的計算方法為落在第i列上點數與點的總數的比值,即
\(p(x=x_i)=\frac\) (1.6)
y取\(y_j\)的概率記為\(p(y=y_j)\), 它的計算方法為落在第j行的點數與點的總數的比值,即\(p(y=y_j)=\frac\)
由於下面中第i列各個方格裡面點數之和滿足\(c_i=\sum_}\),因此可以可以推導
\(p(x=x_i)=\frac=\frac}}=\sum_}}=\sum_j\) (1.7)
公式(1.7)就是概率的加和規則。注意,此次單個變數的概率\(p(x=x_i)\)有時被稱為邊緣概率。如果我們只考慮那些\(x=x_i\)的例項,那麼這些例項中\(y=y_j\)的例項所佔的比例被寫成\(p(y=y_j|x=x_i)\),被稱為給定\(x=x_i\)的\(y=y_j\)的條件概率(conditional probability)。它的計算方式為:計算落在單元格\(ij\)的點的數量與第i列的點的數量的比值,即
\(p(y=y_j|x=x_i)=\frac}\) (1.8)
根據公式(1.5)(1.6)(1.8),可以推導出下面公式
\(p(x=x_i,y=y_j)=\frac}=\frac}*\frac}=p(y=y_j|x=x_i)p(x=x_i)\) (1.9)
這個就是概率論的乘法規則。
使用如下簡單的記法來表示概率論的兩條基本規則:
sum rule\(p(x)=\sum_y\) (1.10)
product rule\(p(x,y)=p(y|x)p(x)\) (1.11)
這裡的\(p(x,y)\)是聯合概率,可以表述為「x且y的概率」。類似地,\(p(y|x)\)是條件概率,可以表述為「給定x條件下y的概率」,\(p(x)\)是邊緣概率,可以表述為「x的概率」。這兩個簡單的規則是概率論的基礎。
上面介紹了概率論的兩個重要的規則:加和規則和乘法規則。涉及到聯合概率、條件概率、邊緣概率這些名詞和概念。下面基於此引入貝葉斯定理。由於聯合概率的定義可知\(p(x,y)=p(y,x)\),根據乘法規則\(p(x,y)=p(y|x)p(x)=p(x|y)p(y)\),可以推導出
\(p(y|x)=\frac\) (1.12)
這就是貝葉斯定理,在模式識別和機器學校領域中扮演者中心角色。使用(1.10)(1.11)可以得到\(p(x)=\sum_y\),由此可見分母可以用出現在分子中的項來表示。我們可以將分母看出乙個歸一化的常數,用於確保公式(1.12)左側的條件概率對於所有的取y值之和為1
參考機器學習 周志華
第1 3章 機器學習與概率論
一 為什麼機器學習中使用概率論?摘自 prml讀書筆記 1 深度理解機器學習之概率論 probability theory 機器學習領域的乙個關鍵概念是不確定性 uncertainty 然而概率論為不確定性的量化和操縱提供了框架,並形成了機器學習的核心基礎之一。當與後面討論的決策論相結合時,其可以根...
機器學習系列 基礎 概率論 數字特徵
最近在看各種演算法的時候,都會涉及到各種各樣的數字特徵,比如在knn中會涉及到眾數的概念,kd中會涉及到中位數的概念,決策樹中會涉及到期望的概念,本篇則主要對這些數字特徵進行一下對比和總結。如下是最簡單的一張思維導圖 用搜尋引擎定義,平均數就是期望,因為計算方式和結果都是一樣的。比如擲骰子,投擲了8...
機器學習數學基礎之概率論與統計04 非引數估計
非引數估計指不知道分布型別,對樣本進行模型估計。一般只用在一維和二維。具體概念詳見課件 直方圖與初高中所理解的直方圖沒什麼不同,直方圖估計就是採用直方圖的方式來對資料進行擬合。顯然地,箱子 的寬度1 m能夠更準確更細緻地展示資料的分布 但如果1 m過小,導致有些箱子裡沒有資料,這個時候p x 將會出...