一、決策樹的基本概念
決策樹學習的目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹。
第3行解釋,當前結點包含的樣本全部屬於同一類別。
第6行解釋,當前屬性集為空,或所有樣本在所有屬性上取值相同。
第12行解釋,當前結點包含的樣本集合為空。
二、劃分選擇
決策樹學習的關鍵在於如何選擇最優劃分屬性。一般而言,隨著劃分過程不斷進行,我們希望決策樹的分支結點所包含的樣本盡可能屬於同一類別,即結點的「純度」(purity)越來越高
經典的屬性劃分方法:
1.資訊增益
」資訊熵」是度量樣本集合純度最常用的一種指標,假定當前樣本集合中第類樣本所佔的比例為
息熵定義為
離散屬性a有v個可能的取值
一般而言,資訊增益越大,則意味著使用屬性來進行劃分所獲得的「純度提公升」越大。而且資訊增益對可取值數目較多的屬性有所偏好
2.資訊增益率
3.基尼指數
資料集的純度可用「基尼值」來度量
三、剪枝處理
為什麼剪枝
「剪枝」是決策樹學習演算法對付「過擬合」的主要手段,可通過「剪枝」來一定程度避免因決策分支過多,以致於把訓練集自身的一些特點當做所有資料都具有的一般性質而導致的過擬合。
剪枝的基本策略
1.預剪枝
2.後剪枝
剪枝處理-預剪枝
1.決策樹生成過程中,對每個結點在劃分前先進行估計,若當前結點的劃分不能帶來決策樹泛化效能提公升,則停止劃分並將當前結點記為葉結點,其類別標記為訓練樣例數最多的類別
2.針對上述資料集,基於資訊增益準則,選取屬性「臍部」劃分訓練集。分別計算劃分前(即直接將該結點作為葉結點)及劃分後的驗證集精度,判斷是否需要劃分。若劃分後能提高驗證集精度,則劃分,對劃分後的屬性,執行同樣判斷;否則,不劃分
預剪枝的優缺點
.優點.降低過擬合風險
.顯著減少訓練時間和測試時間開銷
.缺點.欠擬合風險:有些分支的當前劃分雖然不能提公升泛化效能,但在其基礎上進行的後續劃分卻有可能導致效能顯著提高。預剪枝基於「貪心」本質禁止這些分支展開,帶來了欠擬合風險
剪枝處理-後剪枝
先從訓練集生成一棵完整的決策樹,然後自底向上地對非葉結點進行考察,若將該結點對應的子樹替換為葉結點能帶來決策樹泛化效能提公升,則將該子樹替換為葉結點。
後剪枝的優缺點
優點,後剪枝比預剪枝保留了更多的分支,欠擬合風險小,泛化效能往往優於預剪枝決策樹。
缺點,訓練時間開銷大:後剪枝過程是在生成完全決策樹之後進行的,需要自底向上對所有非葉結點逐一考察。
四、連續與缺失值– 連續值處理
連續屬性離散化(二分法)
五、多變數決策樹
單變數:決策樹分類邊界:軸平行
多變數決策樹:1.非葉節點不再是僅對某個屬性,而是對屬性的線性組合。
2.每個非葉結點是乙個形如
機器學習第四章學習筆記
真的不開學了嗎,家裡蹲一學期?頂不住了 而在學習的過程中,首先的問題就是解域 這兩個引數的解究竟在哪個範圍,確定了範圍再求出最優解 也就是在解域中求得最優解 首先對於資料預處理,使兩類在超平面的同一側 並行感知機和序列感知機是以樣本的給出方式劃分的,樣本一次全部給出稱為並行,乙個乙個給出稱為序列 而...
機器學習 學習記錄(四)
本篇部落格將介紹深度學習時所用到的一些tips。我們知道,機器學習的三大步驟 function set,goodness of function,pick up the best function 那如果我們最終得到的結果壞掉了怎麼辦。如果壞掉了,到底是這三步的哪乙個步驟出現了問題呢?結果的壞掉有兩...
機器學習 演算法(四)
演算法描述 如果乙個樣本在特徵空間中的 k個最相似 即特徵空間中最鄰近 的樣本中的大多數屬於某乙個類別,則該樣本也屬於這個類別。距離公式 歐氏距離 相似的樣本,特徵值之間的值應該是相似的。附加 k 近鄰演算法 為防止某一項對結果的影響,需要做標準化處理。api sklearn.neighbors.k...