結合之前的部落格:
一、什麼是決策樹?
決策樹是一種基本的分類和回歸演算法。
決策樹模型呈樹形結構,可以認為是if-then規則的集合,也可以認為是定義在特徵空間與類空間上的條件概率分布。
決策樹模型由結點和有向邊組成,結點分為內部結點和葉結點,內部結點表示特徵,葉結點表示類,有向邊表示某一特徵的取值。
學習階段:利用訓練資料集,根據損失函式最小化的原則建立決策樹模型
**階段:對新的資料,利用決策樹模型進行分類
本部落格只針對分類問題進行描述
特性:(1)多分類或回歸
(2)判別模型
(3)學習步驟:特徵選擇—決策樹生成—決策樹剪枝
二、決策樹模型與學習
1、模型:
分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點和有向邊組成。
結點:有內部結點和葉結點兩種型別。內部結點表示乙個特徵或屬性,葉結點表示乙個類
2、決策樹學習
學習模型:根據給定的訓練資料集構建乙個決策樹模型,使它能夠對例項進行正確分類。該模型不僅對訓練資料有很好的擬合,而且對未知資料有很好的越策
學習策略:通常選擇正則化的極大似然函式作為損失函式,損失函式最小化
學習演算法:採用啟發式演算法,近似求解上述最優化問題。
遞迴地選擇最優特徵,並根據該特徵對訓練資料進行分割,使得對各個子資料集有乙個最好的分類。
過擬合:以上方法生成的決策樹可能對訓練資料有很好的分類能力,但對未知的資料卻未必,即可能發生過擬合。
剪枝:對生成的樹自下而上進行剪枝,將樹變得更簡單,從而使它具有更好的泛化能力。
特徵選擇:如果特徵數量很多,也可以在學習開始的時候,對特徵進行選擇。
三、特徵選擇
參加之前的部落格
選取對訓練資料具有分類能力的特徵,用該特徵來劃分特徵空間。
如果乙個特徵具有更好的分類能力,或者說,按照這一特徵將訓練資料集分割成子集,使得各個子集在當前條件下有最好的分類,那麼就更應該選擇這個特徵
特徵選擇的準則:資訊增益或資訊增益比。
四、決策樹的生成演算法
參加之前的部落格
1、id3
在決策樹各個結點上應用資訊增益準則選擇特徵,遞迴地構建決策樹
id3相當於用極大似然法進行概率模型的選擇
2、c4.5
特性選擇標準:資訊增益比(與id3的本質區別)
五、剪枝
為了避免過擬合現象,從已生成的樹上裁掉一些子樹或葉結點,並將其根結點或父結點作為新的葉結點,從而簡化分類樹模型。
決策樹生成:考慮更好的擬合訓練集資料 —— 學習區域性的模型
剪枝:通過優化損失函式還考慮了減小模型複雜度 —— 學習整體的模型
怎麼剪? —— 降低不確定性 —— 結構風險最小化
六、cart演算法
classificaion and regression tree ,分類與回歸樹
即可用於分類也可用於回歸
特性:(1)決策樹是二叉樹,內部結點取值「是」和「否」,分別為左結點和右結點
(2)給定輸入隨機變數x條件下輸出隨機變數y的條件概率分布(之前的演算法,既可以是一種if then規則,也可以是條件概率分布)
(3)步驟:決策樹生成+決策樹剪枝
1、cart生成
遞迴地構建二叉決策樹的過程
1)回歸樹生成
平方誤差最小化
2)分類樹生成
基尼指數最小化
統計學習方法 決策樹
決策樹是一種基本的分類與回歸方法。一 決策樹模型 決策樹可以轉換成乙個if then規則的集合,也可以看作是定義在特徵空間劃分的類的條件概率分布 特徵為變數,類為概率 cart與id3 id4.5的區別 cart假設決策樹是二叉樹,特徵取值為 是 或 否 二,決策樹的生成演算法 2.1 id3 id...
統計學習方法 決策樹
決策樹學習的三個步驟 特徵選擇 決策樹的生成 決策樹的修剪 決策樹的結點 內部結點表示乙個特徵或屬性,葉節點表示乙個分類 決策樹的路徑或其對應的if then規則集合滿足性質 互斥且完備 決策樹學習本質上是從訓練資料集中歸納出一組分類規則 與訓練集不相矛盾的決策樹可能有很多,我們需要的是乙個與訓練資...
統計學習方法 5 決策樹
分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種型別 內部結點和葉結點。內部結點表示乙個特徵或屬性,葉結點表示乙個類。決策樹的路徑或其對應的if then規則集合具有乙個重要的性質 互斥並且完備。這就是說,每乙個例項都被一條路徑或一條規則所覆蓋,而且只被一條路徑...