機器學習之 決策樹 隨機森林

2021-09-28 15:35:35 字數 709 閱讀 5840

一、決策樹

選擇特徵來分割

分割方法:id3、c4.5、cart

1.id3:資訊增益來選擇最優分割

id3偏向取值較多的屬性,例如id列

2.c4.5:資訊增益率選擇最優分割

資訊增益 / iv

屬性a的特徵個數越多,iv越大。資訊增益率又會偏向較少的特徵。c4.5先找出資訊增益高於平均水平的屬性,再從中選擇增益率最高的

對於連續屬性採用二分法,從小到大排序,中間值作為分割點,計算資訊增益率,選擇資訊增益率最大的屬性值進行分割。

3.cart:基尼係數選擇最優分割。可用於回歸和分類

cart為二叉樹,相比於id3和c4.5,cart應用多一點。

回歸樹:採用基尼係數選擇最優分割

模型衡量標準採用最小化均方誤差

二:隨機森林

處理過大資料集:可以劃分多個子集,對子集構建分類器

處理較小資料集:自助取樣(bootstrap)

隨機森林兩個隨機:資料選取的隨機、特徵選取的隨機

1.資料選取的隨機:

有放回的抽樣(bootstrap):構造與原資料集數量相同的子資料集。

2.待選特徵的隨機:

森林的子樹的每乙個**過程並未用到所有的特徵,而是所有的待選特徵中隨機選取一定的特徵。

機器學習 決策樹和隨機森林

熵 度量隨機變數的確定量 如果變數完全確定則是0,如果變數完全能不確定則是1 數學期望 mean 是試驗中每次可能結果的概率乘以其結果的總和,它反映隨機變數平均取值的大小 條件熵 在確定的乙個或多個條件下,確定另乙個資訊的熵 推導過程 相對熵 互相息 總結 相關熵 kl散度 可以度量兩個隨機變數之間...

機器學習 決策樹 隨機森林演算法

決策樹api from sklearn.tree import decisiontreeclassifier import pandas as pd 字典特徵抽取 from sklearn.feature extraction import dictvectorizer from sklearn.m...

機器學習04 決策樹 隨機森林

定義 h的專業術語稱之為資訊熵,單位為位元。總結 資訊和消除不確定性是相聯絡的 定義與公式 特徵a對訓練資料集d的資訊增益g d,a 定義為集合d的資訊熵h d 與特徵a給定條件下d的資訊條件熵h d a 之差,即公式為 資訊增益表示得知特徵x的資訊而息的不確定性減少的程度使得類y的資訊熵減少的程度...