決策樹分類

2021-09-09 04:16:58 字數 1644 閱讀 5534

決策樹( decision tree )又稱為判定樹,是運用於分類的一種樹結構。當中的每乙個內部結點( internal node )代表對某個屬性的一次測試,每條邊代表乙個測試結果,葉結點( leaf )代表某個類( class )或者類的分布( class distribution ),最上面的結點是根結點。決策樹分為分類樹和回歸樹兩種,分類樹對離散變數做決策樹,回歸樹對連續變數做決策樹。 

構造決策樹是採用自上而下的遞迴構造方法。決策樹構造的結果是一棵二叉或多叉樹,它的輸入是一組帶有類別標記的訓練資料。二叉樹的內部結點(非葉結點)一般表示為乙個邏輯推斷,如形式為 (a = b) 的邏輯推斷,當中 a 是屬性, b 是該屬性的某個屬性值;樹的邊是邏輯推斷的分支結果。多叉樹( id3 )的內部結點是屬性,邊是該屬性的全部取值,有幾個屬性值,就有幾條邊。樹的葉結點都是類別標記。 

使用決策樹進行分類分為兩步: 

第 1 步:利用訓練集建立並精化一棵決策樹,建立決策樹模型。這個過程實際上是乙個從資料中獲取知識,進行機器學習的過程。 

第 2 步:利用生成完成的決策樹對輸入資料進行分類。對輸入的記錄,從根結點依次測試記錄的屬性值,直到到達某個葉結點,從而找到該記錄所在的類。 

問題的關鍵是建立一棵決策樹。這個過程通常分為兩個階段: 

(1) 建樹( tree building ):決策樹建樹演算法見下,能夠看得出,這是乙個遞迴的過程,終於將得到一棵樹。 

(2) 剪枝( tree pruning ):剪枝是目的是減少因為訓練集存在雜訊而產生的起伏。 

決策樹方法的評價。 

長處

與其它分類演算法相比決策樹有例如以下長處: 

(1) 速度快:計算量相對較小,且easy轉化成分類規則。僅僅要沿著樹根向下一直走到葉,沿途的**條件就行唯一確定一條分類的謂詞。 

(2) 準確性高:挖掘出的分類規則準確性高,便於理解,決策樹能夠清晰的顯示哪些字段比較重要。 

缺點

一般決策樹的劣勢: 

(1) 缺乏伸縮性:因為進行深度優先搜尋,所以演算法受記憶體限制大小,難於處理大訓練集。乙個樣例:在 irvine 機器學習知識庫中,最大能夠同意的資料集只為 700kb , 2000 條記錄。而現代的資料倉儲動輒儲存幾個 g-bytes 的海量資料。用曾經的方法是顯然不行的。 

(2) 為了處理大資料集或連續量的種種改進演算法(離散化、取樣)不僅新增了分類演算法的額外開銷,並且減少了分類的準確性,對連續性的字段比較難預測,當類別太多時,錯誤可能就會新增的比較快,對有時間順序的資料,須要非常多預處理的工作。 

可是,所用的基於分類挖掘的決策樹演算法沒有考慮雜訊問題,生成的決策樹非常完美,這僅僅只是是理論上的,在實際應用過程中,大量的現實世界中的資料都不是以的意願來定的,可能某些欄位上缺值( missing values );可能資料不準確含有雜訊或者是錯誤的;可能是缺少必須的資料造成了資料的不完整。 

另外決策樹技術本身也存在一些不足的地方,比如當類別非常多的時候,它的錯誤就可能出現甚至非常多。並且它對連續性的字段比較難作出準確的預測。並且一般演算法在分類的時候,僅僅是依據乙個屬性來分類的。 

在有雜訊的情況下,全然擬合將導致過分擬合( overfitting ),即對訓練資料的全然擬合反而不具有非常好的預測效能。剪枝是一種克服雜訊的技術,同一時候它也能使樹得到簡化而變得更easy理解。另外,決策樹技術也可能產生子樹複製和碎片問題。 

決策樹分類

一 分類的概念 分類是一種重要的資料分析形式,分類方法用於 資料物件的離散類別,而 則用於 資料物件的連續取值 資料分類是兩個階段的過程,包括學習階段和分類階段 學習階段 訓練階段 就是建立描述預先定義的資料類或概念集的分類器 而訓練集是有資料庫元祖和與他們相互關聯的類標號組成 類標號屬性是離散值和...

分類決策樹

決策樹是基於特徵對例項進行分類的樹形結構。決策樹學習演算法包括 特徵選擇 樹的生成和樹的剪枝。2.1.id3 1 針對當前的集合,計算每個特徵的資訊增益 2 選擇資訊增益最大的特徵作為當前節點的決策決策特徵 3 根據特徵不同的類別劃分到不同的子節點 比如年齡特徵有青年,中年,老年,則劃分到3顆子樹 ...

分類決策樹

決策樹是乙個簡單易用的機器學習演算法,具有很好的實用性。在風險評估 資料分類 專家系統中都能見到決策樹的身影。決策樹其實是一系列的if then規則的集合,它有可讀性良好,分類速度快等優點。把決策樹看成是一些if then規則的集合,在每一層樹上根據屬性的值判斷走勢,至到遇到葉節點,葉節點對應的就是...