人工智慧基礎 數學方法 資訊理論

2021-10-05 09:51:36 字數 4251 閱讀 8123

近年來的科學研究不斷證實,不確定性才是客觀世界的本質屬性。換句話說,上帝還真就擲骰子。不確定性的世界只能使用概率模型來描述,正是對概率的刻畫促成了資訊理論的誕生。

1948 年,供職於美國貝爾實驗室的物理學家克勞德·夏農發表了著名**《通訊的數學理論》(a mathematical theory of communication),給出了對資訊這一定性概念的定量分析方法,標誌著資訊理論作為一門學科的正式誕生。

夏農在《通訊的數學理論》中開宗明義:「通訊的基本問題是在一點精確地或近似地復現在另一點所選取的訊息。訊息通常有意義,即根據某種體系,訊息本身指向或關聯著物理上或概念上的特定實體。但訊息的語義含義與工程問題無關,重要的問題是一條訊息來自於乙個所有可能的訊息的集合。」

這樣一來,所有型別的資訊都被抽象為邏輯符號,這拓展了通訊任務的範疇與資訊理論的適用性,也將資訊的傳播和處理完全剝離。

資訊理論使用「資訊熵」的概念,對單個信源的資訊量和通訊中傳遞資訊的數量與效率等問題做出了解釋,並在世界的不確定性和資訊的可測量性之間搭建起一座橋梁。

在生活中,資訊的載體是訊息,而不同的訊息帶來的資訊即使在直觀感覺上也是不盡相同的。比如,「中國男子足球隊獲得世界盃冠軍」的資訊顯然要比「中國男子桌球隊獲得世界盃冠軍」的資訊要大得多。

究其原因,國足勇奪世界盃是如假包換的小概率事件(如果不是不可能事件的話),發生的可能性微乎其微;而男乒奪冠已經讓國人習以為常,丟掉冠軍的可能性才是意外。因此,以不確定性來度量資訊是一種合理的方式。不確定性越大的訊息可能性越小,其提供的資訊量就越大。

夏農對資訊的量化正是基於以上的思路,他定義了「熵」這一資訊理論中最基本最重要的概念。「熵」這個詞**於另一位百科全書式的科學家約翰·馮諾伊曼,他的理由是沒人知道熵到底是什麼。雖然這一概念已經在熱力學中得到了廣泛使用,但直到引申到資訊理論後,熵的本質才被解釋清楚,即乙個系統內在的混亂程度。

在資訊理論中,如果事件 a 發生的概率為 p(a),則這個事件的自資訊量的定義為

如果國足闖進世界盃決賽圈,1:1000 的奪冠賠率是個很樂觀的估計,用這個賠率計算出的資訊量約為 10 位元;而國乒奪冠的賠率不妨設為 1:2,即使在這樣高的賠率下,事件的資訊量也只有 1 位元。兩者之間的差距正是其可能性相差懸殊的體現。

根據單個事件的自資訊量可以計算包含多個符號的信源的資訊熵。信源的資訊熵是信源可能發出的各個符號的自資訊量在信源構成的概率空間上的統計平均值。如果乙個離散信源 x 包含 n 個符號,每個符號 ai​ 的取值為 p(ai​),則 x 的信源熵為

信源熵描述了信源每傳送乙個符號所提供的平均資訊量,是信源總體資訊測度的均值。當信源中的每個符號的取值概率相等時,信源熵取到最大值 log2​n,意味著信源的隨機程度最高。

在概率論中有條件概率的概念,將條件概率擴充套件到資訊理論中,就可以得到條件熵。如果兩個信源之間具有相關性,那麼在已知其中乙個信源 x 的條件下,另乙個信源 y 的信源熵就會減小。條件熵 h(y∣x) 表示的是在已知隨機變數 x 的條件下另乙個隨機變數 y 的不確定性,也就是在給定 x 時,根據 y 的條件概率計算出的熵再對 x 求解數學期望:

條件熵的意義在於先按照變數 x 的取值對變數 y 進行了一次分類,對每個分出來的類別計算其單獨的資訊熵,再將每個類的資訊熵按照 x 的分布計算其數學期望。

以上課為例,學生在教室中可以任意選擇座位,那麼可能出現的座位分布會很多,其信源熵也就較大。如果對座位的選擇新增乙個限制條件,比如男生坐左邊而女生坐右邊,雖然左邊的座位分布和右邊的座位分布依然是隨機的,但相對於未加限制時的情形就會簡單很多。這就是分類帶來的不確定性的下降。

定義了條件資訊熵後,就可以進一步得到互資訊的概念

互資訊等於 y 的信源熵減去已知 x 時 y 的條件熵,即由 x 提供的關於 y 的不確定性的消除,也可以看成是 x 給 y 帶來的資訊增益。互資訊這個名稱在通訊領域經常使用,資訊增益則在機器學習領域中經常使用,兩者的本質是一樣的。

在機器學習中,資訊增益常常被用於分類特徵的選擇。對於給定的訓練資料集 y,h(y) 表示在未給定任何特徵時,對訓練集進行分類的不確定性;h(y∣x) 則表示了使用特徵 x 對訓練集 y 進行分類的不確定性。資訊增益表示的就是特徵 x 帶來的對訓練集 y 分類不確定性的減少程度,也就是特徵 x 對訓練集 y 的區分度。

顯然,資訊增益更大的特徵具有更強的分類能力。但資訊增益的值很大程度上依賴於資料集的資訊熵 h(y),因而並不具有絕對意義。為解決這一問題,研究者又提出了資訊增益比的概念,並將其定義為 g(x,y)=i(x;y)/h(y)。

另乙個在機器學習中經常使用的資訊理論概念叫作「kullback-leibler 散度」,簡稱 kl 散度。kl 散度是描述兩個概率分布 p 和 q 之間的差異的一種方法,其定義為

kl 散度是對額外資訊量的衡量。給定乙個信源,其符號的概率分布為 p(x),就可以設計一種針對 p(x) 的最優編碼,使得表示該信源所需的平均位元數最少(等於該信源的信源熵)。

可是當信源的符號集合不變,而符合的概率分布變為 q(x) 時,再用概率分布 p(x) 的最優編碼對符合分布 q(x) 的符號編碼,此時編碼結果的字元數就會比最優值多一些位元。

kl 散度就是用來衡量這種情況下平均每個字元多用的位元數,也可以表示兩個分布之間的距離。

kl 散度的兩個重要性質是非負性和非對稱性。

非負性是指 kl 散度是大於或等於 0 的,等號只在兩個分布完全相同時取到。

非對稱性則是指 dkl​(p∣∣q)​=dkl​(q∣∣p),即用 p(x) 去近似 q(x) 和用 q(x) 去近似 p(x) 得到的偏差是不同的,因此 kl 散度並不滿足數學意義上對距離的定義,這一點需要注意。

事實上,dkl​(p∣∣q) 和 dkl​(q∣∣p) 代表了兩種不同的近似方式。要讓 dkl​(p∣∣q) 最小,需要讓 q(x) 在 p(x) 不等於 0 的位置同樣不等於 0;要讓 dkl​(q∣∣p) 最小,則需要讓 q(x) 在 p(x) 等於 0 的位置同樣等於 0。

除了以上定義的指標之外,資訊理論中還有乙個重要定理,叫作「最大熵原理」。最大熵原理是確定隨機變數統計特性時力圖最符合客觀情況的一種準則。對於乙個未知的概率分布,最壞的情況就是它以等可能性取到每個可能的取值。這個時候的概率分布最均勻,也就是隨機變數的隨機程度最高,對它進行**也就最困難。

從這個角度看,最大熵原理的本質在於在推斷未知分布時不引入任何多餘的約束和假設,因而可以得到最不確定的結果,**的風險也就最小。投資理財中的名言「不要把所有雞蛋放在同乙個籃子裡」,就可以視為最大熵原理的乙個實際應用。

將最大熵原理應用到分類問題上就可以得到最大熵模型。在分類問題中,首先要確定若干特徵函式作為分類的依據。為了保證特徵函式的有效性,其在模型真實分布 p(x) 上的數學期望和在由訓練資料集推導出的經驗分布 p~(x) 上的數學期望應該相等,即對給定特徵函式數學期望的估計應該是個無偏估計量。

這樣一來,每乙個特徵函式就對應了乙個約束條件。分類的任務就是在這些約束條件下,確定乙個最好的分類模型。由於除了這些約束條件之外,沒有任何關於分類的先驗知識,因而需要利用最大熵原理,求解出不確定性最大的條件分布,即讓以下函式的取值最大化

式中的 p(y∣x) 就是分類問題要確定的目標條件分布。計算上式的最大值實質上就是乙個約束優化問題,由特徵函式確定的約束條件可以通過拉格朗日乘子的引入去除其影響,轉化為無約束優化問題。從數學上可以證明,這個模型的解是存在且唯一的。 

今天我和你分享了人工智慧必備的資訊理論基礎,著重於抽象概念的解釋而非數學公式的推導,其要點如下:

資訊理論建立在概率的基礎上,但其形式並不唯一,除了夏農熵外也有其他關於熵的定義。那麼概率與資訊之間的關係對人工智慧有什麼啟示呢?

歡迎發表你的觀點。

A 人工智慧 數學基礎

a.數學基礎 線性代數 基本概念 標量向量 矩陣範數 l1 向量絕對值之和 l2 向量的長度 lp p趨於無窮 向量中最大元素的取值 內積兩個向量之間的相對位置 余弦相似度 線性空間 內積空間 內積空間 正交基 標準正交基 特徵值和特徵向量 矩陣特徵值和特徵向量的動態意義在於表示了變化的速度和方向。...

人工智慧數學基礎 矩陣

人工智慧數學基礎系列文章 今天覆習矩陣,作為程式設計師,矩陣在程式中的應用想必或多或少都接觸過,特別是在影象變化演算法上的應用。1.定義 以上是乙個三元一次方程組,根據矩陣的 定義,有矩陣a如下圖 2.矩陣的運算 2.1.矩陣的加法 從上圖中我們可以看出,矩陣a和矩陣b相加,它們都是2 x 2的矩陣...

人工智慧之數學基礎

線性代數不僅僅是人工智慧的基礎,更是現代數學和以現代數學作為主要分析方法的眾多學科的基礎。從量子力學到影象處理都離不開向量和矩陣的使用。每個向量都由若干標量構成,如果將向量的所有標量都替換成相同規格的向量,得到的就是矩陣 matrix 相對於向量,矩陣同樣代表了維度的增加,矩陣中的每個元素需要使用兩...