決策樹原理介紹
決策樹(decision tree)是一類常見的機器學習方法,目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹。
劃分選擇
決策樹學習的關鍵在於,在每個**節點處如何選擇最優劃分屬性。一般而言,隨著劃分過程不斷進行,我們希望決策樹的分支節點所包含的樣本盡可能屬於同一類別,即節點的「純度」越來越高。
資訊理論基礎
資訊熵:是度量樣本集合純度最常用的一種指標,代表乙個系統中蘊含多少資訊量,資訊量越大表明乙個系統不確定性就越大,就存在越多的可能性。
其中pk是d屬於類別k的比例,需要注意的是底數為2,原因熵是以二進位制位的個數來度量編碼長度,同時注意,如果目標屬性具有y個可能值,那麼熵最大可能為log2(y)。
資訊增益:簡單的說,乙個屬性的資訊增益就是由於使用這個屬性分割樣例而導致的期望熵降低(或者說,樣本按照某屬性劃分時造成熵減少的期望,個人結合前面理解,總結為用來衡量給定的屬性區分訓練樣例的能力)。更精確地講,乙個屬性a相對樣例集合d的資訊增益gain(d,a)被定義為:
資訊增益越大,表示使用特徵a來對樣本集進行劃分所獲得的純度提公升越大。
缺點:由於在計算資訊增益中傾向於特徵值越多的特徵進行優先劃分,這樣假設某個特徵值的離散值個數與樣本集 dd 個數相同(假設為樣本編號),雖然用樣本編號對樣本進行劃分,樣本純度提公升最高,但是並不具有泛化能力。
增益率:實際上,資訊增益準則對可取值數目較多的屬性有所偏好,為減少這種偏好可能帶來的不利影響,c4.5決策樹演算法不直接使用資訊增益,而是使用「增益率」(gain ratio)來選擇最優劃分屬性。資訊增益率的計算相關公式:
iv(a) 是特徵 a 的熵。
增益率對特徵值較少的特徵有一定偏好,因此 c4.5c4.5 演算法選擇特徵的方法是先從候選特徵中選出資訊增益高於平均水平的特徵,再從這些特徵中選擇增益率最高的。
基尼指數:基尼指數是經典決策樹cart用於分類問題時選擇最優特徵的指標。假設有k個類,樣本點屬於第k類的概率為pk,則概率分布的基尼指數定義為:
剪枝是決策樹對付過擬合的主要手段,分為預剪枝和後剪枝.
1.預剪枝對每個結點在劃分前先進行估計,若該結點的劃分不能帶來決策樹泛化效能提公升,則停止劃分.預剪枝基於"貪心"本質,所以有欠擬合的風險.
2.後剪枝是先生成一棵完整的決策樹,然後自底向上對非葉結點考察,若該結點替換為葉結點能帶來決策樹泛化效能提公升,則將子樹替換為葉結點.缺點是時間開銷大
決策樹所形成的分類邊界是軸平行的,多變數決策樹(斜決策樹)的每乙個非葉結點都是乙個線性分類器,因此可以產生斜的劃分邊界.
《機器學習》第四章決策樹答案
1 證明對於不含衝突資料 即特徵向量完全相同但標記不同 的訓練集,必存在與訓練集一致 即訓練誤差為0 的決策樹 anser 1 假設不存在與訓練集一致的決策樹,那麼訓練集訓練得到的決策樹至少有乙個節點上存在無法劃分的多個資料 若節點上沒有衝突資料,那麼總是能夠將資料分開的 這與前提 不含衝突資料 矛...
第四章 決策樹
一般的,一棵決策樹包含乙個根節點,若干個內部節點和若干個葉節點。決策學習的目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹。決策樹學習的關鍵是如何選擇劃分屬性。隨著劃分過程的不斷進行,我們希望決策樹的分支節點所包含的樣本盡可能屬於同一類別,即節點的 純度 越來越高。1 資訊增益 資訊熵是度...
周志華 《機器學習》之 第四章(決策樹)概念總結
看完周老師的決策樹章節,首先從內容安排上採用了循序漸進的方式引入介紹決策樹這種分類演算法。書中從基本流程 劃分選擇 剪枝處理 連續與缺失值 多變數決策樹五個方面進行詳細介紹。看完之後我們如何理解決策樹呢?1 決策樹的概念 首先我們可以明確決策樹同其他機器學習演算法一樣,是一種解決分類問題的演算法。從...