資訊增益
熵
劃分資料集
遞迴構建決策樹
測試演算法: 使用決策樹執行分類
使用演算法: 決策樹的儲存
例子: 使用決策樹****眼睛型別
目標:通過決策樹**患者需要佩戴的**眼睛型別。
>> fr = open('lensens.txt')
>> lenses = [inst.strip().split('\t') for inst in fr.readlines()]
>> lenseslabels = ['age', 'prescipt', 'astigmatic', 'tearrate']
>> lensestree = trees.create_tree(lenses, lenseslabels)
>> lensestree
>> treeplotter.create_plot(lensestree)
小節這裡主要是採用id3演算法劃
分資料集,用遞迴的方法將資料集轉化為決策樹,並可用pickle模組存
儲決策樹的結構。id3演算法無法處理直接數值型資料,需要將其化為標量型數值。決策樹最大的缺點在於過擬合問題
。在構建樹的時候,其能夠完全匹配實驗資料,但是這並不是我們想要的,為此,可以刪掉一些只增加了很少資訊的節點,將其併入到其他葉子節點中,或者裁剪一些分支。具體決策樹的很多問題也待整理。
**託管見github
[ch03]:
(3)機器學習實戰筆記 決策樹
chapter3 11.26 決策樹主要優勢 資料形式非常容易理解 可以使用不熟悉的資料集合,並從中提取出一系列規劃 給出的結果往往可以匹敵在當前領域具有幾十年工作經驗的人類專家 缺點 可能會出現過度匹配的問題 適用資料型別 數值型和標稱型 需要考慮決定的第乙個問題 當前資料集上那個特徵在劃分資料分...
《機器學習實戰》學習筆記三 決策樹
1.資訊增益 決策樹應該是比較簡單的概念了,其結構類似於二叉樹,從根節點向下依次判斷,直至葉子節點獲得結果。對於基本結構不多說了,這裡主要說一下和決策樹相關的兩個數學上的概念,即資訊增益和夏農熵。資訊增益是指的以某乙個特徵對資料集劃分前後資料集發生的變化,而夏農熵則是度量這一變化的量。夏農熵的計算公...
《機器學習實戰》學習筆記三 決策樹
第三章 決策樹 決策樹就是乙個樹狀結構的判別模式 這棵樹的每個非葉節點都包含乙個判斷條件,每個葉節點都是一種特定的分出來的類別。缺點 可能產生匹配過度 關於優缺點,個人理解 對中間值的缺失不敏感就是說可以處理有缺失值的特徵資料,匹配過度應該是對於分出來的類別中存在父子類這種情況來說的 一 決策樹總體...