決策樹思想的**非常樸素,程式設計中的條件分支結構就是if-else結構,最早的決策樹就是利用這類結構分割資料的一種分類學習方法
決策樹:是一種樹形結構,其中每個內部節點表示乙個屬性上的判斷,每個分支代表乙個判斷結果的輸出,最後每個葉節點代表一種分類結果,本質是一顆由多個判斷節點組成的樹。
決策樹分類原理
熵
物理學上,熵 entropy 是「混亂」程度的量度。
系統越有序,熵值越低;系統越混亂或者分散,熵值越高。
資訊理論:
1、從資訊的完整性上進行的描述:
當系統的有序狀態一致時,**資料越集中的地方熵值越小,資料越分散的地方熵值越大。
2、從資訊的有序性上進行的描述:
當資料量一致時,系統越有序,熵值越低;系統越混亂或者分散,熵值越高。
2023年夏農提出了資訊熵(entropy)的概念。
假如事件a的分類劃分是(a1,a2,...,an),每部分發生的概率是(p1,p2,...,pn),那資訊熵定義為公式如下:(log是以2為底,lg是以10為底)
決策樹的劃分依據一------資訊增益
資訊增益:以某特徵劃分資料集前後的熵的差值。熵可以表示樣本集合的不確定性,熵越大,樣本的不確定性就越大。因此可以使用劃分前後集合熵的差值來衡量使用當前特徵對於樣本集合d劃分效果的好壞。
資訊增益 = entroy(前) - entroy(後)
公式的詳細解釋:
注:資訊增益表示得知特徵x的資訊而使得類y的資訊熵減少的程度決策樹的劃分依據二----資訊增益率增益率:增益比率度量是用前面的增益度量gain(s,a)和所分離資訊度量splitinformation(如上例的性別,活躍度等)的比值來共同定義的。
決策樹的劃分依據三——基尼值和基尼指數
基尼值gini(d):從資料集d中隨機抽取兩個樣本,其類別標記不一致的概率。故,gini(d)值越小,資料集d的純度越高。
基尼指數gini_index(d):一般,選擇使劃分後基尼係數最小的屬性作為最優化分屬性。
小結
一,決策樹構建的基本步驟如下:
開始將所有記錄看作乙個節點
遍歷每個變數的每一種分割方式,找到最好的分割點
分割成兩個節點n1和n2
對n1和n2分別繼續執行2-3步,直到每個節點足夠「純」為止。
二,決策樹的變數可以有兩種:
數字型(numeric):變數型別是整數或浮點數,如前面例子中的「年收入」。用「>=」,「>」,「
名稱型(nominal):類似程式語言中的列舉型別,變數只能從有限的選項中選取,比如前面例子中的「婚姻情況」,只能是「單身」,「已婚」或「離婚」,使用「=」來分割。
三,如何評估分割點的好壞?
如果乙個分割點可以將當前的所有節點分為兩類,使得每一類都很「純」,也就是同一類的記錄較多,那麼就是乙個好分割點。
決策樹演算法簡介
決策樹 decision tree 一 背景知識 符號 xi的資訊量 l xi log2p xi 熵 h p xi log2p xi 資訊增益 特徵 a對訓練資料集 d的資訊增益 g d,a h d h d a 其中,定義集合 d的經驗熵 h d 與特徵a 給定條件下 d的經驗條件熵 h d a 之...
決策樹演算法原理簡介
1,決策樹概念簡介 不同的演算法模型適合於不同型別的資料。首先,在了解樹模型之前,自然想到樹模型和線性模型有什麼區別呢?其中最重要的是,樹形模型是乙個乙個特徵進行處理,之前線性模型是所有特徵給予權重相加得到乙個新的值。決策樹與邏輯回歸的分類區別也在於此,邏輯回歸是將所有特徵變換為概率後,通過大於某一...
決策樹簡介
決策樹 decision tree 也稱為判定樹,是一類常見的機器學習方法。決策樹是基於樹結構來進行決策的,這恰是人類在面臨決策問題時一種很自然的處理機制。決策過程中提出的每個判定問題都是對某個屬性的 測試 每個測試的結果或是匯出最終結論,或是匯出進一步的判定問題,其考慮範圍是在上次決策結果的限定範...