決策樹概念學習

2021-09-20 08:53:17 字數 1285 閱讀 6067

決策樹(decision tree)是在已知各種情況發生概率的基礎上,通過構成決策樹來求取淨現值的期望值大於等於零的概率,評價專案風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種**法。由於這種決策分支畫成圖形很像一棵樹的枝幹,故稱決策樹。在機器學習中,決策樹是乙個**模型,他代表的是物件屬性與物件值之間的一種對映關係。entropy = 系統的凌亂程度,使用演算法id3, c4.5和c5.0生成樹演算法使用熵。這一度量是基於資訊學理論中熵的概念。

1、應用決策樹愛作決策的過程,是從右向左逐步後退進行分析。根據右端的損益值和概率枝的概率,計算出期望值的大小,確定方案的期望結果,然後根據不同方案結果做出選擇。

2、計算完畢後,開始對決策樹進行剪枝,在每個決策結點刪去除了最高期望值以外的其他所有分支,最後步步推進到第乙個決策結點,這時就找到了問題的最佳方案。方案的捨棄叫做修枝,被捨棄的方案用"≠"的記號來表示,最後的決策點留下一條樹枝,即為最優方案。

案例:為了適應市場的需要,某地提出了擴大電視機生產的兩個方案。乙個方案是建設大工廠,第二個方案是建設小工廠。

條件:建設大工廠需要投資600萬元,可使用10年。銷路好每年贏利200萬元,銷路不好則虧損40萬元。

建設小工廠投資280萬元,如銷路好,3年後擴建,擴建需要投資400萬元,可使用7年,每年贏利190萬元。不擴建則每年贏利80萬元。如銷路不好則每年贏利60萬元。

試用決策樹法選出合理的決策方案。 經過市場調查,市場銷路好的概率為0.7,銷路不好的概率為0.3。

計算各點的期望值:

點②:0.7×200×10+0.3×(-40)×10-600(投資)=680(萬元)

點⑤:1.0×190×7-400=930(萬元)

點⑥:1.0×80×7=560(萬元)

比較決策點4的情況可以看到,由於點⑤(930萬元)與點⑥(560萬元)相比,點⑤的期望利潤值較大,因此應採用擴建的方案,而捨棄不擴建的方案。

把點⑤的930萬元移到點4來,可計算出點③的期望利潤值:

點③:0.7×80×3+0.7×930+0.3×60×(3+7)-280 = 719(萬元)

最後比較決策點1的情況:

由於點③(719萬元)與點②(680萬元)相比,點③的期望利潤值較大,因此取點③而舍點②。這樣,相比之下,建設大工廠的方案不是最優方案,合理的策略應採用前3年建小工廠,如銷路好,後7年進行擴建的方案。 

決策樹學習

決策樹學習是一種逼近離散值目標函式的方法,在這種方法中學習到的函式被表示為一棵決策樹。決策樹通過把例項從艮節點排列到某個葉子結點來分類例項,葉子結點即為例項所屬的分類。樹上的每乙個結點指定了對例項的某個屬性的測試,並且該結點的每乙個後繼分支對應於該屬性的乙個可能值。分類例項的方法是從這棵樹的根節點開...

決策樹學習

決策樹是一種在機器學習中常見的學習演算法。決策樹是一種基於樹結構來進行決策分類和回歸的,在每一步的決策過程中根據屬性值來進行劃分,決策過程中提出的每個判定問題就是對某乙個屬性的測試。一般的,乙個決策樹通常包含乙個根節點,若干的葉子節點和內部節點,葉子節點對應於最後的決策結果,其他每一節點對應於每乙個...

決策樹學習

決策樹是以例項為基礎的歸納學習。該類方法從一類無序,無規則的事物中推理出決策樹表示的分類規則。不論哪種決策樹學習演算法,其基本思想是一致的,即以資訊熵為度量構造一棵 熵值下降最快的樹,到葉子節點處的熵值為零。此時每個葉子結點的例項都屬於同一類。決策樹學習採用自頂向下的遞迴方法,決策樹的每一層結點依靠...