最大資訊熵增益 資訊熵與資訊增益

2021-10-13 11:01:32 字數 928 閱讀 9821

1.資訊熵:資訊熵就是指不確定性,熵越大,不確定性越大

2.關於資訊增益:

資訊增益是針對乙個乙個的特徵而言的,就是看乙個特徵t,系統有它和沒它的時候資訊量各是多少,兩者的差值就是這個特徵給系統帶來的資訊量,即增益。系統含有特徵t的時候資訊量很好計算,就是剛才的式子,它表示的是包含所有特徵時系統的資訊量。

問題是當系統不包含t時,資訊量如何計算?我們換個角度想問題,把系統要做的事情想象成這樣:說教室裡有很多座位,學生們每次上課進來的時 候可以隨便坐,因而變化是很大的(無數種可能的座次情況);但是現在有乙個座位,看黑板很清楚,聽老師講也很清楚,於是校長的小舅子的姐姐的女兒託關係 (真輾轉啊),把這個座位定下來了,每次只能給她坐,別人不行,此時情況怎樣?對於座次的可能情況來說,我們很容易看出以下兩種情況是等價的:(1)教室 裡沒有這個座位;(2)教室裡雖然有這個座位,但其他人不能坐(因為反正它也不能參與到變化中來,它是不變的)。

對應到我們的系統中,就是下面的等價:(1)系統不包含特徵t;(2)系統雖然包含特徵t,但是t已經固定了,不能變化。

我們計算分類系統不包含特徵t的時候,就使用情況(2)來代替,就是計算當乙個特徵t不能變化時,系統的資訊量是多少。這個資訊量其實也有專門的名稱,就叫做「條件熵」,條件嘛,自然就是指「t已經固定「這個條件。

因此有這樣兩個條件熵的表示式:

這是指特徵x被固定為值xi時的條件熵,

這是指特徵x被固定時的條件熵,注意與上式在意義上的區別。第二個式子與第乙個式子的關係就是:

因此固定t時系統的條件熵就有了,為了區別t出現時的符號與特徵t本身的符號,我們用t代表特徵,而用t代表t出現,那麼:

與剛才的式子對照一下,含義很清楚對吧,p(t)就是t出現的概率,

就是t不出現的概率。這個式子可以進一步展開,其中的

另一半就可以展開為:

因此特徵t給系統帶來的資訊增益就可以寫成系統原本的熵與固定特徵t後的條件熵之差:

最大資訊熵增益 資訊熵與資訊增益

前言 熵在機器學習中用的非常普遍,但這個又難以理解,經常忘記,寫一篇部落格記錄一下,也方便其他人學習了解。什麼是熵 一開始接觸熵是大二的資訊理論,非常難的一門課,當時學的時候不知道這個東西有什麼用,完全就不太想學,因為不知道幹嘛,也不知道學了有什麼用,但是現在很後悔,定義 熵也叫資訊熵,可以表徵隨機...

資訊熵與資訊熵增益

資料的資訊屬性是與任務相關的.對於分類任務,標籤值 y 包含的資訊量為 info y ln p y 其中,p y 為 y 出現的概率.p y 越小,y 包含的資訊量越大.這是符合直覺的.熵定義為資訊的期望值.乙個可以分為 m 類的資料集 s 它的資訊熵為隨機得到的乙個label包含的資訊量的期望值 ...

熵 資訊增益 資訊增益率

介紹資訊增益之前,首先需要介紹一下熵的概念,這是乙個物理學概念,表示 乙個系統的混亂程度 系統的不確定性越高,熵就越大。假設集合中的變數x 它對應在集合的概率分別是p 那麼這個集合的熵表示為 舉乙個的例子 對遊戲活躍使用者進行分層,分為高活躍 中活躍 低活躍,遊戲a按照這個方式劃分,使用者比例分別為...