統計學習方法筆記(五)

2021-07-15 06:43:32 字數 2127 閱讀 4133

決策樹模型呈樹形結構,在分類問題中,表示基於特徵對例項進行分類的過程,它可以認為是if-then 規則的集合,也可以認為是定義在特徵空間與類空間上的條件概率分布。學習時,利用訓練資料,根據損失函式最小化的原則建立決策樹模型.**時,對新的資料,利用決策樹模型進行分類決策樹學習通常包括3 個步驟: 特徵選擇、決策樹的生成和決策樹的修剪。

決策樹模型由結點和有向邊組成,其中結點分為:內部結點和葉結點。內部結點表示乙個特證或屬性,葉結點表示個類。

特徵選擇在於選取對訓練資料具有分類能力的特徵.這樣可以提高決策樹學習的效率.如果利用乙個特徵進行分類的結果與隨機分類的結果沒有很大差別,則稱這個特徵是沒有分類能力的。經驗上扔掉這樣的特徵對決策樹學習的精度影響不大.通常特徵選擇的準則是資訊增益或資訊增益比。

首先先給出熵和條件熵的概念:

設x是乙個取有限個值的離散隨機變數,其概率分布為       

則隨機變數x的熵定義為

由定義也可看出,熵只依賴於x的分布,與x的具體取值無關。

熵越大,隨機變數的不確定性就越大。從定義也可看出

一般我們用的時候都是從資料估計得到的,所對應的熵與條件熵又稱為經驗熵和經驗條件熵。這裡如果有0概率出現,我們定義0log0=0。

而資訊增益表示的就是集合d的經驗熵與特徵a給定條件下d的經驗條件熵的差

很拗口對不對,下面給出演算法流程,然後通過例子來了解。

資訊增益選擇方法有乙個很大的缺陷,它總是會傾向於選擇屬性值多的屬性,如果我們在上面的資料記錄中加乙個姓名屬性,假設14條記錄中的每個人姓名不同,那麼資訊增益就會選擇姓名作為最佳屬性,因為按姓名**後,每個組只包含一條記錄,而每個記錄只屬於一類(要麼購買電腦要麼不購買),因此純度最高,以姓名作為測試**的結點下面有14個分支。但是這樣的分類沒有意義,它沒有任何泛化能力。

而資訊增益比就是資訊增益與資料集d的經驗熵之比:

給出定義:

對於給定的樣板集合d,其基尼指數為

這裡,ck是d中屬於第k類的樣本子集,k是類個數。

如果樣本集合d根據a是否取某一可能值a被分割成d1,d2兩部分,即

則在特徵a的條件下,集合d的基尼指數定義為:

知道了怎麼進行特徵選擇,很自然的,決策樹的生產,就是每次子結點上用選定的特徵選擇方法去選擇特徵,遞迴的生成樹,不同的演算法選擇的方法不同,像id3演算法用的是資訊增益,而c4.5用的是資訊增益比,cart用的是基尼指數。

關於id3,c4.5之前的例子已經知道怎麼選特徵了,這裡就提一下cart演算法生成樹的過程,

因為cart假設的決策樹是二叉樹,與另外兩個不一樣。

例子:還是之前的例子,我們用cart演算法生成決策樹。

簡單的說,剪枝的意義在於防止過擬合。原因在於決策樹生成的太細,過於複雜。

具體做法就是從已生成的樹上剪掉一些子樹或葉結點,將其根結點或父結點作為葉結點。

書上介紹了一種簡單的剪枝演算法。就是通過正則化的損失函式。

剪枝最重要一步就是

統計學習方法筆記1 統計學習方法概論

統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...

統計學習方法筆記

1.損失函式 期望,就是均值 極大似然估計 似然就是概率 可能性,所以也是極大可能性估計 對數損失是用於最大似然估計的。一組引數在一堆資料下的似然值,等於每一條資料的概率之積。而損失函式一般是每條資料的損失之和,為了把積變為和,就取了對數 再加個負號是為了讓 最大似然值和 最小損失對應起來 w 是w...

統計學習方法 五 AdaBoost

如果我有寫過整合方法的話 沒有的話看這篇整合學習理論 整合方法的一大類就是boosting,其基本思想就是不斷地在迭代過程中訓練basemodel,並增加誤分樣本的權重,直到達到停止條件後,組合basemodel。從整合學習的理論我們知道boosting在組合過程中會增大模型的variance,所以...