資料探勘學習筆記之決策樹

2021-10-09 08:33:08 字數 2401 閱讀 6151

從資料中產生決策樹的資料學習稱為決策數學習,簡稱決策數.決策樹是資料探勘中最常用的一種分類和**技術,使用其可建立分類和**模型;

它的形狀如同一棵樹,每個節點對於與物件的某個屬性,每個分支對應這個屬性的某個可能取值,每個葉節點表示經歷從根節點到該葉節點這條路徑上的物件的值;

決策樹演算法中有以下三項關鍵技術:

1.選擇最能區別資料集中例項屬性的方法

2.剪枝方法

3.檢驗方法

以上三項關鍵技術決定了決策樹建立的三個重要環節:樹分支節點的建立;剪枝和檢驗

(1)選擇最能區別資料集中例項屬性的方法

資訊熵:資訊變化的平均資訊量,資訊的熵越大,能傳播的資訊越多

資訊熵的技術公式:

id3演算法:

資訊增益公式(c4.5演算法):

(2)剪枝方法

演算法目的:決策樹的剪枝是為了簡化決策樹模型,避免過擬合。

方法:預剪枝,後剪枝

1)預剪枝:

通過提前停止樹的構建而對樹剪枝,一旦停止,節點就是樹葉,該樹葉持有子集元祖最頻繁的類。

其方法:

1.定義乙個高度,當決策樹達到該高度時就停止決策樹的生長

2.達到某個節點的例項具有相同的特徵向量,及時這些例項不屬於同一類,也可以停止決策樹的生長。這個方法對於處理資料的資料衝突問題比較有效。

3.定義乙個閾值,當達到某個節點的例項個數小於閾值時就可以停止決策樹的生長

4.定義乙個閾值,通過計算每次擴張對系統效能的增益,並比較增益值與該閾值大小來決定是否停止決策樹的生長。

2)後剪枝:

它首先構造完整的決策樹,允許樹過度擬合訓練資料,然後對那些置信度不夠的結點子樹用葉子結點來代替,該葉子的類標號用該結點子樹中最頻繁的類標記。相比於先剪枝,這種方法更常用,正是因為在先剪枝方法中精確地估計何時停止樹增長很困難。

其方法:

reduced-error pruning(rep,錯誤率降低剪枝)

pesimistic-error pruning(pep,悲觀錯誤剪枝)

cost-complexity pruning(ccp,代價複雜度剪枝)

ebp(error-based pruning)(基於錯誤的剪枝)

(3)檢驗方法

1)use training set:使用在訓練集例項上的**效果進行檢驗。

2)supplied test set:使用另外提供的檢驗集例項進行檢驗,此時需要單擊set按鈕來選擇用來檢驗的資料集檔案。

3)cross-validation: 使用交叉驗證(cross validation)來檢驗 分類器,所用的折數填在folds文字框中。

4)percentsplit:百分比檢驗。從資料集中按一定百分比取出部分資料作為檢驗集例項用,根據分類器在這些例項上的**效果來檢驗分類器的質量。取出的資料量由「%」欄中的值決定。

優點:(1)決策數容易被理解和被解釋,並且可以被對映到一組更具有吸引力的產生式規則

(2)決策數不需要對資料的性質作預先的假設

(3)決策數能夠使用陣列型資料和分類型別資料的資料集建立模型

侷限性:

(1)輸出屬性必須是分類型別,且輸出屬性必須為乙個

(2)決策數演算法是不穩定的,因為訓練資料的微小變化將導致樹中每個屬性**點處有不同的選擇,這種變化造成的影響很大,屬性的選擇影響著所有的後續子樹

id3解法:

資料探勘之決策樹

熟悉掌握決策樹的原理,熟練掌握決策樹的生成方法與過程 anaconda sklearn pydotplus 決策樹是乙個非引數的監督式學習方法,主要用於分類和回歸。演算法的目標是通過推斷資料特徵,學習決策規則從而建立乙個 目標變數的模型。from sklearn import tree x 0 0 ...

資料探勘之決策樹

決策樹是乙個非引數的監督式學習方法,主要用於分類和回歸。演算法的目標是通過推斷資料特徵,學習決策規則從而建立乙個 目標變數的模型。利用anaconda sklearn生成決策樹並利用決策樹進行 利用pydotplus來顯示 from sklearn import tree x 0 0 1,1 y 0...

資料探勘 決策樹

分類是資料探勘的乙個非常重要的主題,現實中的很多問題都和分類密切相關。我們日常正是因為有了分類技巧,才能對不同的事物 場景採取不同的應對方式。資料分類可以看做是乙個兩步的過程。第一步是學習過程,我們根據所需要分析的問題和資料建立乙個分類器classifier。用我們選擇好的訓練元組對分類器進行訓練,...