決策樹適用問題的特徵:
1、例項由「屬性-值」對(pair)表示
2、目標函式具有離散的輸出值
3、可能需要析取的描述
4、訓練資料可以包含錯誤
5、訓練資料可以包含缺少屬性值的例項
id3演算法特點:
1、搜尋完整的假設空間(也就是說,決策樹空間能夠表示定義在離散例項上的任何離散值函式)
2、從根向下推斷決策樹,為每個要加入樹的新決策分支貪婪地選擇最佳的屬性。
3、歸納偏置,優先選擇較小的樹
觀察id3的搜尋空間和搜尋策略,認識到這個演算法的優勢和不足:
假設空間包含所有的決策樹,它是關於現有屬性的有限離散值函式的乙個完整空間
維護單一的當前假設(不同於變型空間候選消除演算法)
不進行回溯,可能收斂到區域性最優
每一步使用所有的訓練樣例,不同於基於單獨的訓練樣例遞增作出決定,容錯性增強
id3和候選消除演算法的比較:
id3的搜尋範圍是乙個完整的假設空間,但不徹底地搜尋這個空間
候選消除演算法的搜尋範圍是不完整的假設空間,但徹底地搜尋這個空間
id3的歸納偏置完全是搜尋策略排序假設的結果,來自搜尋策略
候選消除演算法完全是假設表示的表達能力的結果,來自對搜尋空間的定義
過度擬合:
對於乙個假設,當存在其他的假設對訓練樣例的擬合比它差,但事實上在例項的整個分布上表現得卻更好時,我們說這個假設過度擬合訓練樣例。
導致過度擬合的原因:
1.一種可能原因是訓練樣例含有隨機錯誤或雜訊
2.特別是當少量的樣例被關聯到葉子節點時,很可能出現巧合的規律性,使得一些屬性恰巧可以很好地分割樣例,但卻與實際的目標函式並無關係
避免過度擬合的方法:
及早停止樹增長 精確地估計何時停止樹增長
後修剪法 被證明在實踐中更成功
避免過度擬合的關鍵:使用什麼樣的準則來確定最終正確樹的規模,解決這個問題的方法有:
1、訓練和驗證集法
可用資料分成兩個樣例集合:
訓練集合,形成學習到的假設
驗證集合,評估這個假設在後續資料上的精度
方法的動機:即使學習器可能會被訓練集合誤導,但驗證集合不大可能表現出同樣的隨機波動
驗證集合應該足夠大,以便它本身可提供具有統計意義的例項樣本
常見的做法是,樣例的三分之二作訓練集合,三分之一作驗證集合
2、錯誤率降低修剪(reduced-error pruning)
將樹上的每乙個節點作為修剪的候選物件
修剪步驟:
刪除以此節點為根的子樹,使它成為葉結點
把和該節點關聯的訓練樣例的最常見分類賦給它
反覆修剪節點,每次總是選取那些刪除後可以最大提高決策樹在驗證集合上的精度的節點
繼續修剪,直到進一步的修剪是有害的為止
資料集分成3個子集:
訓練樣例,形成決策樹
驗證樣例,修剪決策樹
測試樣例,精度的無偏估計
如果有大量的資料可供使用,那麼使用分離的資料集合來引導修剪
3、規則後修剪(rule post-pruning)
步驟:
從訓練集合推導出決策樹,增長決策樹直到盡可能好地擬合訓練資料,允許過度擬合發生
將決策樹轉化為等價的規則集合,方法是為從根節點到葉節點的每一條路徑建立一條規則
通過刪除任何能導致估計精度提高的前件來修剪每一條規則
按照修剪過的規則的估計精度對它們進行排序,並按這樣的順序應用這些規則來分類後來的例項
決策樹複習
一般而言,隨著決策樹的不斷劃分,我們希望決策樹的分支節點所包含的樣本盡可能屬於同一類別,即節點的 純度 越來越高。一 概念 1.什麼是熵 一種事物的不確定性。比如 我第一次去買西瓜,不知道怎麼挑西瓜,很懵,但不知到該挑哪乙個。2.什麼是資訊 消除我對不確定事物的因素。資訊的作用 調整概率 拿乙個榴蓮...
決策樹學習筆記
模型 監督學習中的分類演算法 決策樹演算法的思路 利用樹的結構,將資料集中的特徵 屬性 劃分為樹中的分支節點 資料集中類別標籤對應樹的葉節點。構建決策樹的三要素 1.特徵選擇 資訊熵或資訊增益gini係數來選擇特徵 2.決策樹的生成 id3演算法 資訊增益 c4.5演算法 gini係數 3.決策樹的...
決策樹學習筆記
一 什麼是決策樹 決策樹是一種基於規則的方法,它用一組巢狀的規則進行 在樹的每個決策節點處,根據判斷結果進入乙個分之,反覆執行這種操作直到到達葉子節點,得到 結果。這些規則是通過訓練得到的,而不是認為設定的。規則是每一次 時的閥值。二 樹形成決策的過程 為便於用程式實現,一般將決策樹設計成二叉樹。與...