一、什麼是決策樹
決策樹是一種基於規則的方法,它用一組巢狀的規則進行**。在樹的每個決策節點處,根據判斷結果進入乙個分之,反覆執行這種操作直到到達葉子節點,得到**結果。這些規則是通過訓練得到的,而不是認為設定的。
規則是每一次**時的閥值。
二、樹形成決策的過程
為便於用程式實現,一般將決策樹設計成二叉樹。與樹的葉子節點、非葉子節點相對應,決策樹的節點分為兩種型別。
(1)決策節點。在這些節點處需要進行判斷以決定進入哪乙個分支(子節點),如用乙個特徵和設定的閥值進行比較。決策節點一定有兩個子節點,它是非葉子節點。
(2)葉子節點。表示最終的決策結果,他們沒有子節點。在分類問題中,葉子節點儲存的是類別標籤。
決策樹是乙個分層結構,可以為每乙個節點賦予乙個層次數。根節點的層次數為0,子節點的層次數為父節點層次數加1,。樹的深度定義為所有幾點的最大層數。
典型的決策樹有id3、c4.5 、cart(classification and regression tree, 分類與回歸樹)等,他們區別在於數的結構與構造演算法。cart同時支援分類問題和回歸問題。決策樹是一種判別模型,天然支援多分類問題。
分類樹的對映是多為空間的分段線性劃分,即用平行於各座標軸的超平面對空間進行切分;回歸樹的對映函式是分段函式。決策樹是分段線性函式而不是線性函式,它具有非線性建模能力。對於分類問題,如果決策樹深度夠大,它可以見訓練樣本的所有樣本正確分類。但如果特徵向量維數過高,可能會面臨維數災難導致準確率下降。
三、分類與回歸樹
分類與回歸樹的原理:
這是乙個二叉決策樹。**時從根節點開始,每次只對乙個特徵進行判斷,然後進入左節點或者右節點直至到達乙個葉子節點處,得到類別值或回歸函式值。**演算法的時間複雜度有關,判斷的執行次數不超過決策樹的深度。
四、訓練演算法
下面講如何使用訓練集建立決策樹。決策樹的目的是盡可能的對訓練樣本進行正確**。只管的想法是從根節點開始構造,遞迴的使用訓練樣本集建立起決策樹,這棵樹能夠將訓練集正確劃分,或者對訓練集的回歸誤差最小化。為此我們需要解決的問題有:
1.特徵向量有多少個分量,每個決策節點上應該選擇哪個分量做判斷;
2.選定乙個特徵後,判斷的規則是什麼;
3.合適停止**,何時吧節點設定為葉子節點?
4.如何為每個葉節點賦予類別標籤或者回歸值。
決策樹學習筆記
模型 監督學習中的分類演算法 決策樹演算法的思路 利用樹的結構,將資料集中的特徵 屬性 劃分為樹中的分支節點 資料集中類別標籤對應樹的葉節點。構建決策樹的三要素 1.特徵選擇 資訊熵或資訊增益gini係數來選擇特徵 2.決策樹的生成 id3演算法 資訊增益 c4.5演算法 gini係數 3.決策樹的...
決策樹學習筆記
決策樹是一種有監督機器學習方法。熵 entropy 是表示隨機變數不確定性的度量。設x是乙個取有限個值的離散隨機變數,其概率分布為 則其隨機變數的資訊熵為 熵越大,則隨機變數的不確定性越大。決策樹的目的就是讓資訊熵越來越小,分類則越來越明確。資訊增益表示得知特徵a的資訊而使得總樣本d的資訊的不確定性...
決策樹學習筆記
熵是表示隨機變數不確定性的度量,越小越好 資訊增益 表示特徵x使得類y的不確定性減少的程度。先計算y的熵值為原始熵值,再計算 增益 原始熵值 id3 資訊增益 id熵值小,增益大,但是對結果的影響基本沒有 c4.5 資訊增益率 解決id3,考慮自身熵 cart 使用gini係數來當做衡量標準 gin...