機器篇 決策樹 一 簡要介紹一下決策樹

2021-10-01 18:02:28 字數 1437 閱讀 5192

返回主目錄

返回決策樹目錄

上一章:機器篇——邏輯回歸(logistic regression)

機器篇——決策樹(一) 簡要介紹一下決策樹

機器篇——決策樹(二) 細說 hunt 演算法

機器篇——決策樹(三) 細說 id3 與 c4.5 演算法

機器篇——決策樹(四) 細說 cart 演算法

機器篇——決策樹(五) 細說 評估指標的相關曲線(roc、ks、pr)

機器篇——決策樹(六) 細說 評估指標的交叉驗證

(1). 每個非葉子節點表示一種對樣本的分割,通常是選用樣本的某乙個特徵,將樣本分散到不同子節點中。

(2). 子節點繼續對分散來的樣本進行分割操作

(3). 子節點表示輸出,每個分散到該葉子節點中的樣本都屬於同一類(或近似的回歸值)

(1). 決策樹學習

①. 一種根據樣本為基礎的歸納學習

②. 採用的是自頂向下的遞迴方法

開始時,資料都在根節點上,遞迴進行資料分片

③. 通過剪枝的方法,防止過擬合:

分為預剪枝和後剪枝兩種

(2). 決策樹的使用

①. 對未知資料進行分類

②. 按照決策樹上生成時所採用的分割性逐層往下,直到乙個葉子節點。到葉子節點處的熵值為零。

(3). 決策樹示圖

根節點:最開始的節點,如 ①

父節點:分叉的上端的節點

子節點:分叉的下端的節點

葉子節點:分叉最後的節點,如 ③、⑤、⑥、⑦、⑧

分叉:劃分資料判斷的條件

屬性:節點的屬性

標籤:最終的目標

樹樁:當只有兩層的時候,稱為樹樁,如 ①、②、③

(1). 決策樹學習演算法的最大優點是,它可以自學習。

在學習的過程中,不需要使用者了解過多背景知識,只需要對訓練例項進行較好的標註,就能夠進行學習

(2). 決策樹屬於有監督學習

從一類無序,無規則的事物(概念)中推理出決策樹表示的分類規則

建立決策樹的關鍵,即在當前狀態下選擇哪個屬性作為分類依據。根據不同的目標函式,建立決策樹主要有以下三種演算法:

(1). hunt演算法(卡方檢驗)

(2). 資訊增益(id3)

(3). 資訊增益率(c4.5)

(4). 基尼係數(gini) (cart: classification and regression tree)

後面,將會對這些演算法進行細說。下一小節主要講解 hunt 演算法

返回主目錄

返回決策樹目錄

上一章:機器篇——邏輯回歸(logistic regression)

決策樹系列(一)決策樹基礎

機器學習按資料的使用方式來說可以分為有監督學習 無監督學習 半監督學習 強化學習等,機器學習中的演算法還有另外一種劃分方式 分類 聚類 回歸。但我更喜歡分為兩種 廣義的分類 分類 聚類 和回歸,這裡是按照 的結果是離散資料還是連續資料來劃分的。今天要介紹的決策樹就是分類演算法中的一種。在介紹機器學習...

機器學習之決策樹一

sklearn.tree.decisiontreeclassifier class sklearn.tree.decisiontreeclassifier criterion gini splitter best max depth none,min samples split 2,min samp...

說一下id3決策樹

決策樹看起來比較容易理解,而且,非常適合描述分類的過程和結果。決策樹有兩類,分別是id3和cart。id3適合用於離散型的特徵。cart適合於連續型。決策樹可以用最小熵來從n個樣本中的m個特徵中,挑選某個特徵的某個值,來做 1 輸入n個樣本 2 從這n個樣本中挑選剩餘的s個特徵,然後通過最小熵理論挑...