周志華《機器學習》4 3 剪枝處理 筆記

2021-09-02 22:40:16 字數 1302 閱讀 4781

在決策樹學習中,為了盡可能正確分類訓練樣本,結點劃分過程將不斷重複,有時會造成決策樹分支過多,這時就有可能把訓練樣本學習的太好,以至於把訓練集的某一些特點當做是所有資料都具有的一般性質,這時就發生了過擬合。因此可以通過主動去掉一些分支來降低過擬合的風險。剪枝是決策樹學習演算法對付「過擬合」的主要手段。

決策樹剪枝的基本策略有兩種:

(1)預剪枝:預剪枝是在決策樹生成過程中,對每個結點在劃分前先進行評估,如果當前結點的劃分不能帶來決策樹泛化能力的提公升,則停止劃分並將當前結點標記為葉結點。

(2)後剪枝:先從訓練集生成一顆完整的決策樹,然後自底向上地對非葉結點進行考察,如果將該結點對應的子樹替換為葉結點能帶來決策樹泛化能力的提公升,則將該子樹替換為葉結點。

我們使用一定的效能評估方法來判斷決策樹泛化效能是否有提公升。評估方法:使用乙個測試集來測試學習器對新樣本的判別能力,然後在測試集上的「測試誤差」作為泛化誤差的近似,需要注意的是測試集要與訓練集互斥,即測試樣本不在訓練集中出現、使用。

留出法:直接將資料集d劃分為兩個互斥的集合,其中乙個集合作為訓練集,另乙個作為測試集。需要注意的是,訓練/測試集的劃分要盡可能保持資料分布的一致性,避免因資料劃分過程引入額外的偏差而對最終結果產生影響。

本節使用留出法,預留一部分資料用作「驗證集」來進行效能評估,如下表。

訓練集是雙線上部,驗證集是雙線下部,在這裡我們使用資訊增益準則來進行屬性劃分選擇。公式如下

資訊熵:

資訊增益:

從上表的訓練集生成的決策樹如下圖所示

選取「臍部」對訓練集進行劃分,產生三個分支,如下圖所示

在劃分前,所有樣例集中在根結點,如果不進行劃分,則根據演算法

機器學習周志華筆記

1,監督學習 分類 回歸 無監督學習 聚類 2,決策樹 根據資訊增益的大小來確定節點 資訊熵 描述事務確定性程度的值 需要多少個bit來描述資訊 ent d pklog2pk 資訊增益 資訊熵 某個屬性劃分的平均資訊熵 該屬性劃分純度 3,支援向量機中對超平面的理解 劃分超平面用以下線性方程表示 w...

周志華 機器學習 筆記

學習演算法自身的歸納偏好與問題是否相配,往往會起到決定作用。對於上面這句話 你的輸入資料被怎麼處理,最終得到什麼結果,我認為偏好指的就是這個處理的過程。線性非線性?那些feature忽略掉?怎麼利用這些資料?更具體一些,你用網路處理,還是傳統方法,資料的分布和你的處理方法相符嗎?沒有免費的午餐定理 ...

周志華機器學習筆記(一)

新人一枚,既是機器學習的初學者,也是首次發部落格。謹以此記錄我的學習體會,做一些總結。望與大家共同學習 共同進步。文中若有內容錯誤或有措詞不嚴謹之處,望大家不吝指出。謝謝!根據上圖我們可以用乙個三維空間來了解以下幾個基本術語。屬性與屬性值 屬性反映事件或物件在某方面的表現或性質的事項,在此圖表示為軸...