機器學習 決策樹和隨機森林

2021-08-07 09:18:34 字數 1316 閱讀 1271

熵:度量隨機變數的確定量:如果變數完全確定則是0,如果變數完全能不確定則是1;

數學期望(mean):是試驗中每次可能結果的概率乘以其結果的總和,它反映隨機變數平均取值的大小;

條件熵:在確定的乙個或多個條件下,確定另乙個資訊的熵;

推導過程:

相對熵:

互相息:

總結:

相關熵(kl散度):可以度量兩個隨機變數之間對的距離;

利用熵來做決策樹:就是熵逐漸減小的過程,但是不要減少為0,防止過擬合;

資訊增益:給定特徵,使得資訊熵增加量;

我們有時會用資訊增益率來做;

gini係數:度量不確定性;x(1-x)的加和

主要是這三種演算法:id3,c4.5,cart

id3:使用資訊增益/互資訊 進行特徵選擇;

c4.5資訊增益率來度量;

cart:基尼係數;

決策樹的過擬合:剪枝(預剪枝和後剪枝)和隨機森林(這個是最重要的:做足夠多的樹,求平均所以就會消除)

決策樹:優點:訓練速度快;

bootstraping(bagging -63.2%的資料在袋子裡面)策略:從樣本中重採集(有重複的)選出n個樣本

在所有的屬性上,對這個n個樣本建立分類器:

重複以上兩個步驟m次。即獲得m個分類器

將資料放在這m個分類器上,最後根據這m個分類器的投票結果,決定資料屬於哪一類;

oob資料(袋外資料):就是驗證資料;

隨機是指:樣本和特徵的選擇是隨機;

樣本不均衡的常用處理辦法:

1:降取樣(效果更好) 2:重取樣

使用隨機森林計算特徵的重要度:

計算正例經過的節點,如果某乙個特徵經過的節點數多了,證明這個特徵重要程度比較高;

機器學習 決策樹 隨機森林演算法

決策樹api from sklearn.tree import decisiontreeclassifier import pandas as pd 字典特徵抽取 from sklearn.feature extraction import dictvectorizer from sklearn.m...

機器學習之 決策樹 隨機森林

一 決策樹 選擇特徵來分割 分割方法 id3 c4.5 cart 1.id3 資訊增益來選擇最優分割 id3偏向取值較多的屬性,例如id列 2.c4.5 資訊增益率選擇最優分割 資訊增益 iv 屬性a的特徵個數越多,iv越大。資訊增益率又會偏向較少的特徵。c4.5先找出資訊增益高於平均水平的屬性,再...

機器學習04 決策樹 隨機森林

定義 h的專業術語稱之為資訊熵,單位為位元。總結 資訊和消除不確定性是相聯絡的 定義與公式 特徵a對訓練資料集d的資訊增益g d,a 定義為集合d的資訊熵h d 與特徵a給定條件下d的資訊條件熵h d a 之差,即公式為 資訊增益表示得知特徵x的資訊而息的不確定性減少的程度使得類y的資訊熵減少的程度...