機器學習讀書筆記 決策樹

2021-08-28 23:40:35 字數 1025 閱讀 4278

決策樹是一類常見的機器學習方法。

舉個簡單的例子,我們分辨乙個藝術品是否具有藝術價值,可以從色彩,線條兩方面去評價(不會美術,只是打個比方)。

例如下面這幅畫,我們可以先判斷色彩不鮮豔,再判斷線條不美觀,從而得出這沒有藝術價值。

這判斷的過程就是一棵決策樹。如圖

這是決策樹學習基本演算法

可以看出,關鍵在第8行,我們要如何選取最優的劃分屬性呢,從上例來說為什麼要先看色彩而不是先看線條呢,當訓練資料有一定量的時候,比如很多幅畫,那麼我們希望隨著劃分過程的不斷進行,在分支結點所包含的樣本盡可能來自同一類別,即結點的純度越來越高。資訊熵就是度量樣本集合純度最常用的一種指標。

其中,d是資料集,y是類別數,p是在d中第k類樣本所佔的比例。

顯然,資訊熵的值越小,d的純度越高。

假定離散屬性a有v個取值,如色彩(鮮豔,暗淡,平淡),就有3個,dv是第v個分支結點包含了d中所有在a上取值為

一般來說,資訊增益越大,則說明使用該屬性劃分所獲得的純度提公升越大。id3就使用這個來劃分。

實際上,資訊增益準則對可取值數目較多的屬性有所偏好。

為了減少資訊增益的偏好的不利影響,也可以用增益率來作為劃分標準。

其中需要注意的是,增益率準則對可取值數目較少的屬性有所偏好,因此在c4.5中是使用了乙個啟發式:先從候選劃分屬性中找出資訊增益高於平均水平的屬性,再從中選擇增益率最高的。

cart決策樹使用基尼指數來選擇劃分屬性。

資料集d的純度可以用基尼值來表示,直觀地說,gini(d)反映了從資料集d中隨機取兩個樣本其類別標記不一致的概率,因此gini(d)越小,資料集d的純度越高。

屬性a的基尼指數為

機器學習實戰讀書筆記 決策樹

以下是需要的一些子函式 計算給定資料集的夏農熵 defcalcshannonent dataset numentries len dataset 得到行數 labexcounts for featvec in dataset currentlabel featvec 1 獲取每行最後一列的值 根據最...

機器學習筆記 決策樹學習

決策樹學習是一種逼近離散值目標函式的方法,在這樣的方法中學習到的函式被表示為一棵決策樹。表示法 把例項從根節點排列到某個葉子節點來分類例項,葉子節點即為例項所屬的分類。樹上的每個節點指定了對例項的某個屬性 attribute 的測試,而且該節點的每個字尾分支相應於該屬性的乙個可能值。分類例項的方法是...

西瓜書讀書筆記(四) 決策樹

全部筆記的彙總貼 機器學習 西瓜書 讀書筆記彙總貼 可以先看看這個 統計學習方法讀書筆記 五 決策樹 決策樹 decision tree 是一類常見的機器學習方法。連續值 採用二分法對連續的屬性進行處理,這也是c4.5決策樹演算法採用的機制。缺失值 通過計算資訊增益,讓同一樣本以不同的概率劃入到不同...