演算法梳理3

2021-09-26 03:18:16 字數 1321 閱讀 7858

資訊理論基礎

主要概念:

熵:熵可以看作是隨機變數的平均不確定度的度量。在平均意義下,它是為了描述該隨機變數所需的位元數。

聯和熵:聯合熵就是度量乙個聯合分布的隨機系統的不確定度

條件熵:表示在已知隨機變數 x 的條件下隨機變數 y 的不確定性

資訊增熵:在乙個條件下,資訊不確定性減少的程度

基尼不純度:將來自集合中的某種結果隨機應用於集合中某一資料項的預期誤差率。

決策樹的不同分類演算法

基於資訊理論的三種決策樹演算法有id3,c4.5,cart。

id3演算法由ross quinlan發明,建立在「奧卡姆剃刀」的基礎上:越是小型的決策樹越優於大的決策樹(be ******簡單理論)。id3演算法中根據資訊理論的資訊增益評估和選擇特徵,每次選擇資訊增益最大的特徵做判斷模組。id3演算法可用於劃分標稱型資料集,沒有剪枝的過程,為了去除過度資料匹配的問題,可通過裁剪合併相鄰的無法產生大量資訊增益的葉子節點(例如設定資訊增益閥值)。使用資訊增益的話其實是有乙個缺點,那就是它偏向於具有大量值的屬性–就是說在訓練集中,某個屬性所取的不同值的個數越多,那麼越有可能拿它來作為**屬性,而這樣做有時候是沒有意義的,另外id3不能處理連續分布的資料特徵,於是就有了c4.5演算法。cart演算法也支援連續分布的資料特徵。

c4.5是id3的乙個改進演算法,繼承了id3演算法的優點。c4.5演算法用資訊增益率來選擇屬性,克服了用資訊增益選擇屬性時偏向選擇取值多的屬性的不足在樹構造過程中進行剪枝;能夠完成對連續屬性的離散化處理;能夠對不完整資料進行處理。c4.5演算法產生的分類規則易於理解、準確率較高;但效率低,因樹構造過程中,需要對資料集進行多次的順序掃瞄和排序。也是因為必須多次資料集掃瞄,c4.5只適合於能夠駐留於記憶體的資料集。

cart演算法的全稱是classification and regression tree,採用的是gini指數(選gini指數最小的特徵s)作為**標準,同時它也是包含後剪枝操作。id3演算法和c4.5演算法雖然在對訓練樣本集的學習中可以盡可能多地挖掘資訊,但其生成的決策樹分支較大,規模較大。為了簡化決策樹的規模,提高生成決策樹的效率,就出現了根據gini係數來選擇測試屬性的決策樹演算法cart。

回歸樹原理

回歸樹與決策樹相同,只是在分類樹中,採用資訊理論中的方法,通過計算選擇最佳劃分點。而在回歸樹中,採用的是啟發式的方法。

決策樹防止過擬合手段

決策樹過擬合有兩方面的原因,分別是資料問題以及建模問題。

針對資料部分解決過擬合的手段是:做好資料預處理工作,合理選擇資料樣本,用相對能夠反映業務邏輯的訓練集去產生決策樹;

針對建模過程解決的手段是:剪枝

模型評估

前面已經介紹過模型評估的主要方法,在此處主要使用模型驗證和準確率判定的方法進行評估驗證。

初級演算法梳理 任務3 決策樹演算法梳理

1.資訊理論基礎 熵 聯合熵 條件熵 資訊增益 基尼不純度 2.決策樹的不同分類演算法 id3演算法 c4.5 cart分類樹 的原理及應用場景 3.回歸樹原理 4.決策樹防止過擬合手段 5.模型評估 6.sklearn引數詳解python繪製決策樹 2.決策樹的不同分類演算法 id3演算法 c4....

Task3 XGB演算法梳理

參考 損失函式 傳統gbdt在優化時只用到一階導數資訊,xgboost則對代價函式進行了二階泰勒展開,同時用到了一階和二階導數。順便提一下,xgboost工具支援自定義代價函式,只要函式可一階和二階求導。結點演算法 點選擇的時候也,以目標函式最小化為目標。正則化 xgboost在代價函式裡加入了正則...

演算法梳理(三)決策樹演算法梳理

目錄 1.資訊理論基礎 熵 聯合熵 條件熵 資訊增益 基尼不純度 2.決策樹的不同分類演算法 id3演算法 c4.5 cart分類樹 的原理及應用場景 3.回歸樹原理 4.決策樹防止過擬合手段 5.模型評估 6.sklearn引數詳解,python繪製決策樹 熵 資訊是很抽象的概念,一直都無法估計資...