決策樹擴充套件

2021-06-22 09:14:55 字數 987 閱讀 1136

之前寫過決策樹的一篇blog:

這幾天看資料探勘導論發掘一些新的東西,記錄下來。

這是之前blog 引用ng的一般誤差與經驗誤差的關係。

可以看出,一般誤差正比於vc維,反比於訓練集大小(說法不太嚴格)。

過擬合就是第二項太大導致一般誤差太大。

導論上關於一般誤差的比喻比較好,引用一下:

很小。同樣的道理,當決策樹劃分到很小集合時,這些剩下的訓練樣本不同之處是很隨機的,並且受噪音影響很大。也就是,我們這時做的任意決策,都帶有隨機猜測的性質。

雖然這個時候,我們認為決策得到訓練誤差很小,就像上面計算的90%的準確率,但是這也是隨機猜測中取較好結果的假象而已。

真實的準確率還是隨機猜測的結果。

簡單說:越往細分,決策越沒有概括性,趨向於隨機猜測。訓練準確率高,只是假象而已。

決策樹有幾種剪枝法:

1.預剪枝:設定閾值

當劃分到一定數量時,結束劃分,取較多的一類樣本標籤作為此節點標籤

2.後剪枝:整合節點

在決策樹建立完成後,再整合節點,多個節點合併(小節點融合);常用節點與不常用節點合併(測試時較常訪問的節點)

後剪枝一般比預剪枝有更好的效果,不過會更複雜,以及增加了計算複雜度。

資訊熵:id3的計算方法

這二類情況下,三種純度計算方法圖形如下

可以看出,這三種方法的效果基本一致。實驗也證明,這三種方法都有相似的結果。

決策樹和CART決策樹

首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...

決策樹(二)決策樹回歸

回歸 決策樹也可以用於執行回歸任務。我們首先用sk learn的decisiontreeregressor類構造一顆回歸決策樹,並在乙個帶雜訊的二次方資料集上進行訓練,指定max depth 2 import numpy as np quadratic training set noise np.r...

決策樹01 決策樹的原理

此筆記根據 machine learning in action 和周志華教授的 機器學習 所作。缺點 可能會產生過度匹配問題。適用資料型別 數值型和標稱型 machine learning in action if so return 類標籤 else 尋找劃分資料集的最好特徵 劃分資料集 建立分...