好不容易理解了資訊熵的概念後,又發現還有其他各種熵,經常把人繞暈,比如決策樹模型中要計算資訊增益(其實就是互資訊),最大熵模型中要計算條件熵,下面我們就來用5分鐘理解下互資訊,條件熵,聯合熵。先看他們之間的關係。
上圖中兩個完整的圓圈,分別表示x的資訊熵h(x),和y的資訊熵h(y),兩個圓有一部分是重疊的,重疊部分用c表示,a和b表示的是完整圓去除了重疊區域c的部分。
h(x)=a+c, 是圖中左邊完整的圓圈區域,表示的是隨機事件x的資訊熵
h(y)=b+c, 是圖中右邊完整的圓圈區域,表示的是隨機事件y的資訊熵
i(x,y)=c,是圖中兩圓重疊的c區域,表示的是x和y的互資訊。
互資訊的大小衡量了x事件和y事件的相關程度,當兩件事毫無關聯,則互資訊為0。比如在5分鐘理解貝葉斯公式裡有個例子,老王是否在辦公室和老張是否在辦公室這兩個隨機事件,如果老王和老張是完全沒有關係的人,在兩個不同公司上班,兩個公司可能在不同國家,老張和老王從事的是不同的職業或崗位。那老王是否在辦公室和老張是否在辦公室就相關程度為0,用圖表示,2個圓是不相交的。反之,老王和老張是同一家公司從事著需要密切配合的工作,老王在辦公室的那天,老張必然要在辦公室,老張在辦公室時,老王也必然在辦公室,那兩件事就是相關程度最高。兩個圓就是重合的。
h(x|y)=a,是圖中左邊淺藍色區域,h(y|x)=b,是圖中綠色的區域。這表示的是條件熵。
為了理解條件熵仍然以5分鐘理解貝葉斯公式中的老張和老王為例,老張和老王是同事,老王在辦公室的先驗概率是3/7,因為一周有三天在辦公室,老張在辦公室的先驗概率是2/7,因為一周有兩天在辦公室。因為他們兩人有一定的相關度,一周中總有一天兩個是都會在辦公室。當知道老王在或者不在辦公室的條件下,再判斷老張是否在辦公室的概率叫條件概率,或後驗概率,就是已經知道一些經驗知識後判斷這件事發生的概率,由於知道了相關的知識,事件發生不確定程度減少了(也就是確定性就增加了),那這個熵(實際上就是條件熵)也就減少了。因為資訊熵衡量的是事件的不確定程度(參考5分鐘理解資訊熵一文)。減少的程度就是代表兩件事情的相關程度的互資訊。總結成公式就是:條件熵h(x|y)=資訊熵h(x)-互資訊i(x,y)
聯合熵h(x,y)=a+c+b,在圖中是三片區域加起來所表示的部分。
熵,條件熵,互資訊,交叉熵
定義 用來度量資訊的不確定程度。解釋 熵越大,資訊量越大。不確定程度越低,熵越小,比如 明天太陽從東方公升起 這句話的熵為0,因為這個句話沒有帶有任何資訊,它描述的是乙個確定無疑的事情。例子 假設有隨機變數x,用來表達明天天氣的情況。x可能出現三種狀態 1 晴天2 雨天 3 陰天 每種狀態的出現概率...
1 互資訊 資訊熵 條件互資訊 相關
參考於 資訊量可以被看成在學習 x 的值的時候的 驚訝程度 如果有人告訴我們乙個相當不可能的時間發生了,我們收到的資訊要多於我們被告知某個很可能發生的事件發生時收到的資訊。如果我們知道某件事情一定會發生,那麼我們就不會接收到資訊。於是,我們對於資訊內容的度量將依賴於概率分布p x 因此我們想要尋找乙...
通過示例總結條件熵 交叉熵 相對熵 互資訊
h y x 表示在已知隨機變數x的條件下,隨機變數y的不確定性,h y x 定義為 舉個例子 有一堆西瓜,已知這堆西瓜的色澤,以及每種色澤對應好瓜和壞瓜的個數,如下所示,設x表示色澤,y表示好瓜或者壞瓜。則 這個例子就是計算條件熵的乙個過程,現在證明條件熵公式 有很多書上的條件熵是這麼定義的,如果繼...