決策樹面試被提及的題目:
1、決策樹的原理:
從根結點開始,對例項的某一特徵進行測試,根據測試的結果,將例項分配到其子結點;每乙個子結點對應著該特徵的乙個取值。如此遞迴地對例項進行測試並分配,直至達到葉結點。最後將例項分配到葉結點的類中。
2、決策樹的過程(步驟):
決策樹學習通常包括3個步驟:特徵選擇、決策樹的生成和樹的剪枝。
附:決策樹的選擇特徵包括哪些,和各自的優缺點:
資訊增益,資訊增益比,基尼係數
3、決策樹的終止條件:
節點中的樣本個數小於預定的閾值,或樣本集的基尼指數小於預定值,或者沒有更多的特徵;
4、決策樹如何防止過擬合:
樹的剪枝;
5、決策樹的生成:
經典的有:id3的生成演算法、c4.5的生成演算法、
1)id3的生成演算法
思路:id3演算法的核心是在決策樹各個結點上應用資訊增益準則選擇特徵,遞迴地構建決策樹。具體方法是:從根結點開始,對結點計算所有可能的特徵的資訊增益,選擇資訊增益最大的特徵作為結點的特徵,由該特徵的不同取值建立子節點;再對子節點遞迴地呼叫以上方法,構建決策樹;直到所有特徵的資訊增益均很小或沒有特徵可選為止。最後得到乙個決策樹。
演算法如下:
輸入:訓練資料集d,特徵集a,閾值e
ss:決策樹t
(1)若d所有例項屬於同一類ck,則t為單結點樹,並將類ck作為該結點的類的標記,返回t;
(2)若a =空,則 t為單結點樹,並將d中例項最大的類ck作為該結點的類標記,返回t;
(3) 否則,按照資訊增益演算法計算a中各特徵對d的資訊增益,選擇資訊增益最大的特徵ag;
(4)如果銀的資訊增益小於閾值e,則置t為單節點樹,並將d中例項數最大類ck作為該節點的類標記,返回t;
(5)否則,對ag的每乙個可能取值ai,依ag = ai 將d分割為若干非空子集di,將di中例項數最大的類作為標記,構建子節點,由結點以其子節點構成樹t,返回t;
(6)對第我個結點,以d為訓練集,以a-為特徵集,遞迴地呼叫1~5 ,得到子樹ti,返回ti
2)c4.5的生成演算法:
思路:c4.5與id3演算法相似, c4.5 演算法對id3演算法進行了改進,c4.5在生成的過程中,用資訊增益比來選擇特徵。
1,為什麼選擇資訊增益比?
以資訊增益作為劃分訓練資料集的特徵,存在偏向於選擇值較多的特徵的問題,使用資訊增益比可以對這一問題進行校正。具體是再資訊增益除以關於某個特徵的熵
6,決策樹的剪枝:
具體地,剪枝從已生成的樹山剪掉一些子樹或葉結點,並將其根結點或父節點作為新的葉節點,從而簡化樹模型。
決策樹剪枝往往通過極小化決策樹整體的損失函式或代價函式來實現。
演算法思想:
輸入:生成演算法產生的整個樹t,引數a;
輸出:修剪後子樹ta;
(1)計算每個結點的jingyansha經驗熵
(2)遞迴地從樹的葉結點先殺向上回縮。
設一組葉節點回縮到其父節點之前與之後的整體樹分別為ta 和 tb,其對應的損失函式值分別為ca(ta) 與ca(tb),如果ca(ta) <= ca(tb),則進行剪枝,即將父節點變為新的葉節點。
(3)返回(2),直到不能繼續為止,得到損失函式最小的子樹ta。
決策樹理論
決策樹學習通常包括3個步驟 分類決策樹是一種描述分類的樹形結構,旨在基於經驗對目標分類做出判斷。圖1.1 決策樹模型 以是否區間相親物件為例對決策樹進行理解,可建立如下的決策樹 構造就是生成一顆完整的決策樹。在構造決策樹的過程中,需要選擇節點的屬性,因此,構造需要解決的問題如下 構造決策樹,選擇結點...
決策樹基本理論
決策樹一一種基本的分類與回歸的演算法。呈樹形結構,在分類問題中,表示基於特徵對例項進行分類的過程,可以認為是 if then 規則的集合,也可以認為是定義在特徵空間與類上的條件概率分布。主要的優點是 模型具有可讀性,分類速度快,學習資料時,根據損失函式最小化的原則建立決策樹模型,時,對性的資料利用建...
決策樹和CART決策樹
首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...