熵 資訊增益 資訊增益率

2021-09-29 02:56:25 字數 1168 閱讀 2607

介紹資訊增益之前,首先需要介紹一下熵的概念,這是乙個物理學概念,表示「乙個系統的混亂程度」。系統的不確定性越高,熵就越大。假設集合中的變數x=,它對應在集合的概率分別是p=。那麼這個集合的熵表示為:

舉乙個的例子:對遊戲活躍使用者進行分層,分為高活躍、中活躍、低活躍,遊戲a按照這個方式劃分,使用者比例分別為20%,30%,50%。遊戲b按照這種方式劃分,使用者比例分別為5%,5%,90%。那麼遊戲a對於這種劃分方式的熵為:

同理遊戲b對於這種劃分方式的熵為:

遊戲a的熵比遊戲b的熵大,所以遊戲a的不確定性比遊戲b高。用簡單通俗的話來講,遊戲b要不就在上公升期,要不就在衰退期,它的未來已經很確定了,所以熵低。而遊戲a的未來有更多的不確定性,它的熵更高。

介紹完熵的概念,我們繼續看資訊增益。為了便於理解,我們還是以乙個實際的例子來說明資訊增益的概念。假設有下表樣本

第一列為qq,第二列為性別,第三列為活躍度,最後一列使用者是否流失。我們要解決乙個問題:性別和活躍度兩個特徵,哪個對使用者流失影響更大?我們通過計算資訊熵可以解決這個問題。

按照分組統計,我們可以得到如下資訊:

其中positive為正樣本(已流失),negative為負樣本(未流失),下面的數值為不同劃分下對應的人數。那麼可得到三個熵:

整體熵:

性別熵:

性別資訊增益:

同理計算活躍度熵:

活躍度資訊增益:

活躍度的資訊增益比性別的資訊增益大,也就是說,活躍度對使用者流失的影響比性別大。在做特徵選擇或者資料分析的時候,我們應該重點考察活躍度這個指標。

c4.5演算法

id3演算法存在乙個問題,就是偏向於多值屬性,例如,如果存在唯一標識屬性id,則id3會選擇它作為**屬性,這樣雖然使得劃分充分純淨,但這種劃分對分類幾乎毫無用處。id3的後繼演算法c4.5使用增益率(gain ratio)的資訊增益擴充,試圖克服這個偏倚。

c4.5演算法首先定義了「**資訊」,其定義可以表示成:

其中各符號意義與id3演算法相同,然後,增益率被定義為:

c4.5選擇具有最大增益率的屬性作為**屬性,其具體應用與id3類似,不再贅述。

最大資訊熵增益 資訊熵與資訊增益

1.資訊熵 資訊熵就是指不確定性,熵越大,不確定性越大 2.關於資訊增益 資訊增益是針對乙個乙個的特徵而言的,就是看乙個特徵t,系統有它和沒它的時候資訊量各是多少,兩者的差值就是這個特徵給系統帶來的資訊量,即增益。系統含有特徵t的時候資訊量很好計算,就是剛才的式子,它表示的是包含所有特徵時系統的資訊...

最大資訊熵增益 資訊熵與資訊增益

前言 熵在機器學習中用的非常普遍,但這個又難以理解,經常忘記,寫一篇部落格記錄一下,也方便其他人學習了解。什麼是熵 一開始接觸熵是大二的資訊理論,非常難的一門課,當時學的時候不知道這個東西有什麼用,完全就不太想學,因為不知道幹嘛,也不知道學了有什麼用,但是現在很後悔,定義 熵也叫資訊熵,可以表徵隨機...

資訊增益,資訊增益率,Gini

資訊增益 首先,計算總系統的熵,然後,當某特徵固定時,會將系統分成幾個 此特徵的可能值數目 子系統,分別計算每個子系統的熵,方法同上 而後,將幾個子系統的熵加起來,便是 當不包含此特徵 時系統的熵 最後,以上兩個 包含 和 不包含 此特徵情況下系統的熵的差值便是此特徵的資訊增益。gini 係數 某個...