資訊增益:特徵a對訓練資料集d的資訊增益g(d,a),定義為集合d的經驗熵h(d)與特徵a給定條件下d的經驗條件熵h(d|a)之差,即
一般,h(y)與條件熵h(y|x)之差稱為互資訊。
熵是什麼呢?
熵表示隨機變數不確定性的度量。熵越大,該變數的不確定性越強。
熵的計算方法,設x為離散型隨機變數,其概率分布為
則其熵的計算方法為:
熵越大,變數的不確定性越大。且
0<=h (p)<=log n,可知當變數的取值數量越少時熵的範圍越小,其實從另乙個角度來思考,可取的值越少,不確定性就越簡單,這也正對應了熵越大,變數的不確定性越大,熵越小,變數的不確定性越小。
上面解釋熵用的是離散型的隨機變數,如果是連續的隨機變數呢?
方法還是一樣的,如果是聯絡的隨機變數,其可取得範圍越大,熵越大,不確定性越大。
比如一對情侶約會,女孩跟男的說:「明天早上六點到七點你在某某地等我或者下午三點到五點你在某某地等我,你選個時間段吧!」
男的說:「我不想一直等你,我就在其中乙個時間段去五次,碰到就約會,碰不到就拜拜」
顯然這個男得比較「直」但同時,男的應該選早上六點到七點,這個時間碰到女朋友的可能性更大。
現在我們將熵得計算公式轉化一下,得到下式:
我們發現最大熵得大小與下面這個函式關係比較大:
這裡 0其實對於最大熵還有乙個不等式:
這個不等式的意思是當乙個隨機變數的取值有n個時,且對每個取值都有乙個概率時,此時的熵一定小於等於每個取值概率相等時的熵,其實這就是我們在前面提到的0<=h(p)<=log n。
這裡我們其實也可以舉個例子,比如現在乙個不透明盒子,盒子上面有乙個只可以伸進手的洞,現在盒子裡有五種顏色的球,紅黃藍綠紫,且數量都為五十個,現在問,隨機從裡面拿乙個球,請問,為什麼顏色。
你應該會覺得都一樣啊,不好猜。
現在改一改,將八個藍的變成紅的,跟剛才一樣隨機取乙個,你現在肯定覺得紅的可能性更大了,藍的幾乎可能性很小了,其他三種差不多吧!其實這時候熵變小了,不確定性變小了。
上面講了很久的熵,現在我們在提提條件熵
看到這裡,有些人可能會想到概率論裡的條件概率,條件熵與條件概率有些相似,h(x|y)即表示隨機變數y在已知隨機變數x已發生的條件下的不確定性。
還得提到乙個點,在資訊理論中,熵越大也代表某個事件的資訊量越大。
談完了熵和條件熵,現在我們再來看上面那個式子,g(d,a)=h(d)-h(d|a),現在將d看作資料集,a看作特徵,資訊增益g(d,a)是否就是資料集原本的不確定性,或者說它不考慮特徵時的資訊量減去考慮某個特徵時的資訊量。
這樣得到的結果就是考慮那個特徵時減少的資訊量,資訊量減少的越多,資訊增益越大,也就是說這個特徵對資料集的劃分影響越大。
所以資訊增益可以作為決策樹選擇特徵區劃分資料集的方法。
資訊增益與決策樹
決策樹是一種判別式模型。在一顆分類決策樹中,非葉子節點時決策規則,葉子節點是類別。當輸入乙個特徵向量時,按照決策樹上的規則從根節點向葉節點移動,最後根據葉節點的類別判定輸入向量的類別。決策樹也可以用來解決回歸問題。建立乙個決策樹模型主要有三個步驟 特徵選擇 決策樹的生成 決策樹的剪枝。而特徵選擇時要...
決策樹資訊增益
決策樹和整合演算法都是樹模型 決策樹 從根節點一步步走到葉子節點,所有的資料都會落到葉子節點,既可以做分類也可以做回歸。一顆樹有三種節點組成,根節點,中間幾點,葉子節點。根節點是第乙個選擇節點,也是最重要的乙個選擇特徵。葉子節點是存放最終的結果。決策樹的訓練和測試 訓練是建立一棵樹。測試是讓資料從根...
最大資訊熵增益 決策樹與資訊增益
今天我們開始介紹決策樹。它既可以用於分類,也可以用於回歸。這裡我們主要介紹更加常見的分類用法。概念決策樹,顧名思義,它的形狀類似於一棵樹,我們可以簡單把它畫出來 如上圖,最上面的乙個點我們叫它根節點 root node 最下面不再進行分類的點我們叫它葉節點 leaf node 決策樹的分類過程是這樣...