決策樹筆記彙總

2021-09-05 09:32:16 字數 313 閱讀 9522

網上關於決策樹的博文已經有很多了。我挑選了幾篇比較好理解的幾篇,作為以後查閱備忘。同時,決策樹剛開始學習時,概念比較多,建議博文結合西瓜書一起看,因為有些公式這樣寫不太理解,但是別的地方換一種寫法,就會容易理解很多。

資訊熵、資訊增益(id3),資訊增益比(c4.5)。參閱下面兩篇博文:

基尼指數(cart)

順便說一下。要記住,乙個系統越是混亂,那麼資訊熵越大,基尼指數也越大。所以我們在做差時,總是要差值大的,因為這樣我們提公升的就更多。

對於基尼指數,我們選擇劃分後,基尼指數最小的那個劃分的屬性,這樣劃分的純度最高,其實和資訊熵差值最大是乙個道理。

決策樹問題彙總

1.簡述決策樹原理?決策樹是一種基本的分類與回歸方法。它可以認為是if then規則的集合,也可以認為是定義在特徵空間與類空間上的條件概率分布。決策樹是一種自上而下,對樣本資料進行樹形分類的過程,由節點和有向邊組成。節點分為內部節點和葉節點,每個內部節點表示乙個特徵或屬性,葉節點表示類別,邊代表劃分...

決策樹筆記

決策樹學習的常用演算法有id3 c4.5與cart。其中id3特徵選擇的準則是資訊增益,c4.5的是資訊增益率,cart是基尼指數。熵 entropy 介紹資訊增益之前需要先引入熵的概念 熵表示的是隨機變數的不確定性程度,表示式為 其中pi表示離散變數x取xi的概率。log一般以2和e為底。而熵越大...

決策樹學習筆記

模型 監督學習中的分類演算法 決策樹演算法的思路 利用樹的結構,將資料集中的特徵 屬性 劃分為樹中的分支節點 資料集中類別標籤對應樹的葉節點。構建決策樹的三要素 1.特徵選擇 資訊熵或資訊增益gini係數來選擇特徵 2.決策樹的生成 id3演算法 資訊增益 c4.5演算法 gini係數 3.決策樹的...