在學習機器學習的演算法之前,需要明確幾個基本概念。
1. 資訊熵(entropy)
熵是表示隨機變數不確定性的度量.從直觀上,資訊熵越大,變數包含的資訊量越大,變數的不確定性也越大。乙個事物內部會存在隨機性,也就是不確定性,而從外部消除這個不確定性唯一的辦法是引入資訊。如果沒有資訊,任何公式或者數字的遊戲都無法排除不確定性。幾乎所有的自然語言處理,資訊與訊號處理的應用都是乙個消除不確定性的過程。
2 條件熵(conditional entropy)
條件熵h(y|x)表示在已知隨機變數y的條件下隨機變數x的不確定性,隨機變數y給定的條件下,隨機變數x的條件熵h(y|x)定義為——x給定條件下y的條件概率分布的熵對x的數學期望。知道的資訊越多,隨機事件的不確定性就越小。
定義式:
3 聯合熵
設x y為兩個隨機變數,隨機變數x和y聯合資訊熵:
4 左右熵
一般用於統計方法的新詞發現。
計算一對詞之間的左熵和右熵,熵越大,越說明是乙個新詞。因為熵表示不確定性,所以熵越大,不確定越大,也就是這對詞左右搭配越豐富,越多選擇。如: 屌絲,這個詞,我們希望左右熵都很大,希望屌絲這個詞左右邊搭配盡可能豐富,如左邊:這屌絲、臭屌絲、窮屌絲;右邊:屌絲的,屌絲樣、屌絲命等。左右搭配豐富。
5資訊增益
資訊增益表示得知特徵x的資訊而使得類y的資訊的不確定性減少的程度,在分類中是一種衡量樣本特徵重要性的方法,直觀的理解是有無樣本特徵對分類問題的影響的大小。假設某個狀態下系統的資訊熵為h(y),再引入某個特徵x後的資訊熵為h(y|x),則特徵x的資訊增益定義為:
資訊增益在機器學習領域有著重要的應用。例如在構建決策樹時,利用資訊增益,選擇重要的特徵**資料集;在文字特徵選擇方法中,利用ig方法進行特徵選擇。理解熵的概念、資訊增益的概念可以幫助我們增加對這些演算法的理解。一般地,熵h(y)與條件熵h(y|x)之差稱為互資訊,決策樹學習中的資訊增益等價於訓練資料集中類與特徵的互資訊。
6互資訊(mutual information)
互資訊是計算語言學模型分析的常用方法,它度量兩個物件之間的相互性。
定義式:
7基尼指數
分類問題中,假設有m個類,樣本點屬於第i類的概率為pi,則概率分布的基尼指數定義為
如果樣本集合d根據特徵a是否取某一可能值a被分割成d1和d2兩部分,則在特徵a的條件下,集合d的基尼指數定義為
其中,基尼指數gini(d)表示集合d的不確定性,基尼指數gini(d,a)表示經a = a分割後集合d的不確定性。基尼指數值越大,樣本集合的不確定性也就越大,這與熵相似。
資訊理論的相關基本概念
此篇部落格為對趙悅著的 概率圖模型學習理論及其應用 學習筆記。1.熵 熵是對隨機變數的不確定性的度量,隨機變數x的熵越大,說明它的不確定性也就越大。2.聯合熵 條件熵 互資訊 聯合熵 借助聯合概率分布對熵的自然推廣。條件熵 借助條件概率分布對熵的延伸。條件熵h x y y 度量的是已知y y後,x的...
資訊理論與編碼 01 資訊的概念
從現實世界到資訊世界 資訊 日常生活中,我們很少刻意區分資訊和訊息。人五官所感所得,皆可被我們歸為資訊,且核心在於資訊在自然世界與人之間傳輸,被我們主觀意識所捕獲的那個get的瞬間。如果要加以區分。資訊不等同於情報 資訊不等同於知識 資訊不等同於訊息 資訊不等同於訊號 資訊 訊息 訊號 將客觀物質運...
資訊理論筆記
i p log b p 當b 2,熵的單位是bit b e,熵的單位是nat b 10,熵的單位是hart p 1,i p 0 p 0,i p p 1 2,i p 1 h x ex i x e x l ogb x 個人理解 x可以是連續或者離散,反正就是積分h p,q ep log q h p dk...