3 決策樹 一

2022-03-25 19:39:40 字數 1152 閱讀 1963

3.1  決策樹的構造

3.1.1 資訊增益

熵(entropy)是資訊的期望值。如果待分類的事物可能劃分在多個分類中,則符號xi的資訊定義為:

,p(xi)為該分類的概率。

為了計算熵,需計算所有類別所有可能包含的資訊期望值:

,n是分類的數目。

3.1.2 劃分資料集

分類演算法需要:上述的測量資訊熵、劃分資料集、度量劃分資料集的熵。

注意:這裡資料集需要滿足以下兩個辦法:

<1>所有的列元素都必須具有相同的資料長度

<2>資料的最後一列或者每個例項的最後乙個元素是當前例項的類別標籤。

3.1.3 遞迴構建決策樹

遞迴結束條件:程式遍歷完所有劃分資料集的屬性,或者每個分支下的所有例項都有相同的分類。

如果資料集已處理完所有屬性,但類標籤依然不唯一。此時,會採用多數表決方法決定該葉子節點分類。

該葉節點中屬於某一類最多的樣本數,那麼我們就說該葉節點屬於那一類!。

決策樹 ID3構建決策樹

coding utf 8 from math import log import operator 建立訓練資料集 defcreatedataset dataset 1,1,yes 1,1,yes 1,0,no 0,1,no 0,1,no 資料集的最後乙個元素作為該資料的標籤,是否是魚 labels...

決策樹系列(一)決策樹基礎

機器學習按資料的使用方式來說可以分為有監督學習 無監督學習 半監督學習 強化學習等,機器學習中的演算法還有另外一種劃分方式 分類 聚類 回歸。但我更喜歡分為兩種 廣義的分類 分類 聚類 和回歸,這裡是按照 的結果是離散資料還是連續資料來劃分的。今天要介紹的決策樹就是分類演算法中的一種。在介紹機器學習...

決策樹和CART決策樹

首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...