DataWhale基礎演算法第三次作業 決策樹

2021-09-10 09:44:59 字數 1748 閱讀 1590

目錄

決策樹理論:

1.資訊理論基礎

(1)資訊熵

(2)聯合熵

(3)條件熵

(4)資訊增益

(5)基尼指數/基尼不純度

2:決策樹的不同分類演算法

(1)id3演算法

(2)c4.5

(3)cart分類樹

3.回歸樹的原理

4.決策樹防止過擬合的手段

剪枝處理

原本是物理學的定義,後來夏農將其引用到資訊理論領域,用於表示資訊量的大小。資訊量越大,對應的熵值越大。怎麼樣才能是資訊量比較大呢?越是不確定的事件,包含的資訊量也就越大,確定發生的,沒什麼懸念,包含的資訊量就很少了。

一維隨機變數分布推廣到多維隨機變數分布。

h(y|x) 表示在已知隨機變數 x 的條件下隨機變數 y 的不確定性。條件熵 h(y|x) 定義為 x 給定條件下 y 的條件概率分布的熵對 x 的數學期望。

採用資訊增益劃分資料。計算使用所有特徵劃分資料集,得到多個特徵劃分資料集的資訊增益,從這些資訊增益中選擇最大的,因而當前結點的劃分特徵便是使資訊增益最大的劃分所使用的特徵。

不足:資訊增益偏向取值較多的特徵。

採用資訊增益比劃分資料,彌補id3的不足

不足:只能進行分類

採用基尼係數劃分資料,可針對離散和連續型,可以做分類和回歸。

預剪枝:是在決策樹的生成過程中,對每個結點在劃分前先進行估計,若當前結點的劃分不能帶來決策樹泛化效能提公升,則停止劃分即結束樹的構建並將當前節點標記為葉結點。

後剪枝:是先從訓練集生成一棵完整的決策樹,然後自底向上地對葉結點進行考察,若將該結點對應的子樹替換為葉結點能帶來決策樹泛化為效能提公升,則將該子樹替換為葉結點。泛化效能的提公升可以使用交叉驗證資料來檢查修剪的效果,通過使用交叉驗證資料,測試擴充套件節點是否會帶來改進。如果顯示會帶來改進,那麼我們可以繼續擴充套件該節點。但是,如果精度降低,則不應該擴充套件,節點應該轉換為葉節點。

MySQL基礎第三彈

高階3 排序查詢 引入use myemployees select from employees 語法 select 查詢列表 from 表 where 篩選條件 order by 排序列表 asc desc 特點 1.asc代表的是公升序,desc代表是降序 不寫,預設公升序 2.order by...

Datawhale 零基礎入門CV

賽題名稱 零基礎入門cv之街道字元識別 1.匯入所需庫 import os,sys,glob,shutil,json os.environ cuda visible devices 0 import cv2 import matplotlib.pyplot as plt from pil impor...

學習演算法第三題

問題 判斷整數是否是回文。ps 回文 把相同的詞彙或句子 在下文中調換位置或顛倒過來,產生首尾回環的情趣,叫做回文,也叫回環。要求 不能將整數轉化成字串!示例1 輸入 121 輸出 true 說明 從左到右,顯示121 從右到左,顯示121 因此為回文。示例2 輸入 121 輸出 false 說明 ...