機器學習04 決策樹 隨機森林

2022-01-14 13:01:29 字數 1935 閱讀 7872

定義:h的專業術語稱之為資訊熵,單位為位元。

總結:資訊和消除不確定性是相聯絡的

定義與公式

特徵a對訓練資料集d的資訊增益g(d,a),定義為集合d的資訊熵h(d)與特徵a給定條件下d的資訊條件熵h(d|a)之差,即公式為:

資訊增益表示得知特徵x的資訊而息的不確定性減少的程度使得類y的資訊熵減少的程度

class sklearn.tree.decisiontreeclassifier(criterion=』gini』, max_depth=none,random_state=none)

def

decision_iris():

"""用決策樹對鳶尾花進行分類

:return:

"""#

1)獲取資料集

iris =load_iris()

#2)劃分資料集

x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)

#3)決策樹預估器

estimator = decisiontreeclassifier(criterion="

entropy")

estimator.fit(x_train, y_train)

#4)模型評估

#方法1:直接比對真實值和**值

y_predict =estimator.predict(x_test)

print("

y_predict:\n

", y_predict)

print("

直接比對真實值和**值:\n

", y_test ==y_predict)

#方法2:計算準確率

score =estimator.score(x_test, y_test)

print("

準確率為:\n

", score)

#視覺化決策樹

缺點:改進:

隨機森林是乙個包含多個決策樹的分類器,並且其輸出的類別是由個別樹輸出的類別的眾數而定。

用n來表示訓練用例(樣本)的個數,m表示特徵數目。

bootstrap:boolean,optional(default = true)是否在構建樹時使用放回抽樣

min_samples_split:節點劃分最少樣本數

min_samples_leaf:葉子節點的最小樣本數

機器學習 決策樹和隨機森林

熵 度量隨機變數的確定量 如果變數完全確定則是0,如果變數完全能不確定則是1 數學期望 mean 是試驗中每次可能結果的概率乘以其結果的總和,它反映隨機變數平均取值的大小 條件熵 在確定的乙個或多個條件下,確定另乙個資訊的熵 推導過程 相對熵 互相息 總結 相關熵 kl散度 可以度量兩個隨機變數之間...

機器學習 決策樹 隨機森林演算法

決策樹api from sklearn.tree import decisiontreeclassifier import pandas as pd 字典特徵抽取 from sklearn.feature extraction import dictvectorizer from sklearn.m...

機器學習之 決策樹 隨機森林

一 決策樹 選擇特徵來分割 分割方法 id3 c4.5 cart 1.id3 資訊增益來選擇最優分割 id3偏向取值較多的屬性,例如id列 2.c4.5 資訊增益率選擇最優分割 資訊增益 iv 屬性a的特徵個數越多,iv越大。資訊增益率又會偏向較少的特徵。c4.5先找出資訊增益高於平均水平的屬性,再...