決策樹 資訊熵 資訊增益 基尼係數

2021-09-24 14:29:31 字數 2291 閱讀 4580

決策樹系列目錄(文末有彩蛋):

決策樹②——決策樹演算法原理(id3,c4.5,cart)

決策樹③——決策樹引數介紹(分類和回歸)

決策樹④——決策樹sklearn調參(gridsearchcv)

決策樹⑤——python**實現決策樹

決策樹應用例項①——鐵達尼號分類

決策樹應用例項②——使用者流失**模型

決策樹應用例項③——銀行借貸模型

決策樹應用例項④——**&京東白條(回歸&均方差&隨機森林)

本文主要是通過大白話,解釋何為 資訊,資訊熵,資訊增益,資訊增益率,基尼係數(文末有大禮贈送)

能消除不確定性的內容才能叫資訊,而告訴你乙個想都不用想的事實,那不叫資訊。

比如資料分析師的工作經常是要用資料中發現資訊,有一天上班你告訴老大從資料中發現我們的使用者性別有男有女。。。(這不廢話嗎?)這不叫資訊,但是如果你告訴老大女性使用者的登入頻次、加購率,瀏覽商品數量遠高於男性,且年齡段在25歲~30歲的女性使用者消費金額最多,15-20歲最少,那麼我相信你老大會眼前一亮的!!!

如何衡量資訊量?2023年有一位科學家夏農從引入熱力學中的熵概念,得到了資訊量的資料公式:

pk代表資訊發生的可能性,發生的可能性越大,概率越大,則資訊越少,通常將這種可能性叫為不確定性,越有可能則越能確定則資訊越少;比如中國與西班牙踢足球,中國獲勝的資訊量要遠大於西班牙勝利(因為這可能性實在太低~~)

資訊熵則是在資訊的基礎上,將有可能產生的資訊定義為乙個隨機變數,那麼變數的期望就是資訊熵,比如上述例子中變數是贏家,有兩個取值,中國或西班牙,兩個都有自己的資訊,再分別乘以概率再求和,就得到了這件事情的資訊熵,公式如下:

假如只有2個取值,曲線長得特別像金拱門,當pk=0或1時,資訊量為0,當pk=0.5時,資訊熵最大,想想看一件事情有n多種結果,有各種結果都同樣有可能的時候,是不是最難以料到結局?

資訊增益是決策樹中id3演算法中用來進行特徵選擇的方法,就是用整體的資訊熵減掉以按某一特徵**後的條件熵,結果越大,說明這個特徵越能消除不確定性,最極端的情況,按這個特徵**後資訊增益與資訊熵一模一樣,那說明這個特徵就能獲得唯一的結果了。

這裡補充乙個概念:條件熵,公式為:

資訊增益為:

資訊增益率是在資訊增益的基礎上,增加了乙個關於選取的特徵包含的類別的懲罰項,這主要是考慮到如果純看資訊增益,會導致包含類別越多的特徵的資訊增益越大,極端一點,有多少個樣本,這個特徵就有多少個類別,那麼就會導致決策樹非常淺。公式為:

基尼係數也是一種衡量資訊不確定性的方法,與資訊熵計算出來的結果差距很小,基本可以忽略,但是基尼係數要計算快得多,因為沒有對數,公式為:

與資訊熵一樣,當類別概率趨於平均時,基尼係數越大

當按特徵a**時,基尼係數的計算如下:

這是二分類時的基尼係數影象,與資訊熵形狀非常接近,從資料角度看,將資訊熵在pk=1處進行泰勒一階展開,可以得到log2pk≈1-pk

本人網際網路資料分析師,目前已出excel,sql,pandas,matplotlib,seaborn,機器學習,統計學,個性推薦,關聯演算法,工作總結系列。

決策樹 資訊熵增益

from math import log import operator defcreatedateset dataset 青年 否 否 一般 否 青年 否 否 好 否 青年 是 否 好 是 青年 是 是 一般 是 青年 否 否 一般 否 中年 否 否 一般 否 中年 否 否 好 否 中年 是 是 ...

最大資訊熵增益 決策樹與資訊增益

今天我們開始介紹決策樹。它既可以用於分類,也可以用於回歸。這裡我們主要介紹更加常見的分類用法。概念決策樹,顧名思義,它的形狀類似於一棵樹,我們可以簡單把它畫出來 如上圖,最上面的乙個點我們叫它根節點 root node 最下面不再進行分類的點我們叫它葉節點 leaf node 決策樹的分類過程是這樣...

決策樹資訊增益

決策樹和整合演算法都是樹模型 決策樹 從根節點一步步走到葉子節點,所有的資料都會落到葉子節點,既可以做分類也可以做回歸。一顆樹有三種節點組成,根節點,中間幾點,葉子節點。根節點是第乙個選擇節點,也是最重要的乙個選擇特徵。葉子節點是存放最終的結果。決策樹的訓練和測試 訓練是建立一棵樹。測試是讓資料從根...