資料分析 決策樹演算法 決策樹的概念

2021-09-28 20:47:32 字數 2444 閱讀 2021

顧名思義,決策樹將以樹狀結構表現出來,被用來輔助作出決策。

具體結合例子來說,我們平時做決策時大多會伴隨著層層的選擇,比如找房子的時候,會考慮離工作/上課地點的距離、大小和**、光照等等因素。

如果乙個房子通勤快、**低、光照好、空間大(雖然不太可能存在,但是只要存在這種房子)我們一定會作出「買/租」的決策。將我們作出這一決策的思考過程/選擇過程以層次形式表現出來,如下:

雖然我們平時並一定會在決策的時候明顯察覺到自己的決策符合這種結構。但許多決策/決定都可以被分解為這種結構。

比如:我們決定「如果明天不下雨,我們就去野炊。」

該決定可以分解為,以天氣(是否下雨)作為結點,如果不下雨,就作出野炊的決定,如果下雨,就作出取消野炊的決定。

一般的,一棵決策樹包含乙個根結點、若干個內部結點和若干個葉結點;

葉結點對應於決策結果,其他每個結點則對應於乙個屬性測試;

每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中;

根結點包含樣本全集;

從根結點到每個葉結點的路徑對應了乙個判定測試序列。

在對決策樹是什麼有乙個總體認識之後,緊接著的要解決的問題就是,如何針對乙個問題生成出該問題的決策樹。

更準確地說,生成決策樹要解決兩個問題:

2.1剪枝

對決策樹進行剪枝,就是剪去不必要的結點。

一來刪去這些結點可能對決策樹的判斷沒有多大的影響。則刪去結點可以使得決策樹更加簡潔,進行決策的時候可以通過更少的判斷得到不錯的結果。

二來刪去這些結點可能對決策樹的效率明顯的提高,可以通過更少的判斷得到更好的結果。

剪枝可以分為「先剪枝」和「後剪枝」。

先剪枝是在構造決策樹就對結點進行評估,如果結點的存在與否不影響決策樹效能,則不對該結點再進行劃分,使其稱為葉結點,得出決策結論。

後剪枝是在構造完成決策樹之後從葉結點開始對結點進行評估,如果刪除結點對決策樹效能沒有影響,這刪去該結點及其子樹。

剪枝的目標是提高決策樹的效能,如果決策樹的效能不佳,可能出現過擬合或者欠擬合現象。

2.2 構造

在最開始的買房子的決策中,最先作為劃分因素的是通勤距離。

然而可能通勤距離對你來說無關緊要。只要是**低的,通勤距離近的你會買,通勤距離遠的你也會買,那麼最先拿**來劃分樣本集,就很可能更快作出決策。所以,構造決策樹的時候,要考慮的就是哪個結點作為根結點/內部結點/葉結點。

換言之,構造決策樹就是在乙個結點集合中不斷地選出結點作為根結點(或者根結點子樹的根結點)。第乙個被選出來的結點就是整棵決策樹的根結點。

之後選出內部結點(即子樹的根結點)以及葉結點。

2.2.1 構造的依據

是什麼讓乙個結點從結點集合中被我們選中,拎出來作為根結點的呢?

這就涉及到了我們選擇結點的依據:純度

通過決策樹的形式,我們可以認為,

決策樹就是對乙個樣本集合進行層層劃分

於是,乙個集合劃分出的種類越少,可以認為這個集合中的樣本差異越小,稱之為純度越高。

換言之,如果我們可以僅憑乙個因素作出非黑即白決策(就像僅憑乙個因素乙個人是好是壞),則決策變得十分高效,我們自然會在需要作出決策的時候首先拿這個因素進行決策判斷。

這就是為什麼我們會將使得決策樹純度最高的結點最先挑出來作為根結點。

構造決策樹的依據是純度。

而用來衡量純度的三個指標分別是:資訊增益、資訊增益率和基尼係數

對應的三個演算法是id3演算法、c4.5演算法、cart演算法

3.1 資訊增益

id3演算法構造決策樹(選擇結點)的依據是資訊增益。

資訊增益最大的屬性將優先被選擇出來作為劃分集合的結點。

資訊增益指的是選擇該屬性作為結點所能得到的資訊量。什麼意思呢?這說的是從樣本到決策結果存在不確定性,我們用資訊熵衡量這種不確定性。如果作出乙個選擇之後得到了資訊量,則資訊熵下降。下降的值即為獲得資訊量的值,成為資訊增益。

資訊增益 = 選擇結點前的資訊熵 - 選擇出結點後的資訊熵

3.2 資訊增益率

資訊增益率 = 資訊增益 / 屬性熵

其說明的是資訊熵下降了多少百分比。下降百分比最多的下降程度最大,優先選擇作為結點。

3.3 基尼係數

基尼係數和資訊熵一樣,都是可以反映樣本不確定度的指標。

基尼係數 = 1 - 各結果概率平方和

在被選擇後能夠使得基尼係數最小的屬性,則可使得樣本集合最穩定,不確定度最小。於是這樣的結點將被優先選擇出來作為結點。

資料分析 決策樹

引言高二 1 班的小明同學和小方同學為了準備即將進行的校園羽毛球大賽,準備近乙個月的時間去練習打球。不過,並不是每一天都適合練球。通常,小明和小方需要考慮一些因素來決定今天是否適合打羽毛球,比如 今天是否有場地 若沒有室內場地,就只能選擇室外場地 如果是要在室外練習的話,天氣是否合適,是否會颳風等,...

excel決策樹 酸奶決策樹分析

決策樹分類演算法一般分為兩個步驟 決策樹生成和決策樹修剪,運用決策樹分析法,可以找到酸奶的目標人群市場,通過此次決策樹分析,我們得出中收入的未婚和離異的男性為目標市場人群。一 資料分析 首先計算熵和資訊增益。樣本的概率分布越均衡,它的資訊量 熵 就越大,樣本集的混雜程度就越高,資訊增益越大,說明屬性...

決策樹分析

進行科學的決策是專案評估工作中的主要目的之一。科學的決策方法就是對比判斷,亦即對擬建專案的備選方案進行比選。但是,決策存在一定的風險性,專案評估工作中的大量決策基本是屬於風險型決策。概率分析為在風險條件下決定方案取捨的方法,決策樹分析也是常用的風險決策方法之一。所謂決策樹分析,就是利用概率分析原理,...