day3
機器學習監督學習——決策樹原理
一
.
決策樹的原理
1.
機器學習中分類和**演算法的評估:
準確率速度
強壯型:有資料缺失或錯誤時演算法的執行
可規模性:數量級規模比較大
可解釋性
2.
決策樹
(decision tree)
決策樹是乙個類似於流程圖的樹結構:其中,每個內部結點表示在乙個屬性上的測試,每乙個分支代表乙個屬性輸出,而每個樹葉節點代表類或類分布。樹的最頂層是根節點。
3.
熵(entropy)
概念:
資訊比較抽象,度量資訊,夏農提出了「資訊熵」的概念。變數的不確定性越大,熵也就越大。位元來衡量資訊的多少。
4.
決策樹歸納演算法
(id3)——information gain
選擇屬性判斷節點:資訊獲取量(通過
a來作為節點分類獲取了多少資訊)a.
先計算出目標函式的資訊熵
b.計算每乙個屬性的資訊熵
c.用目標函式與變數(屬性
)的資訊熵作差,結果最大的屬性作為第乙個判斷節點。不斷重複此過程,建立當前節點,增長決策樹。其中在處理連續型變數的屬性的時候,我們需要將連續變數給離散化。
此外,還有一些其他的演算法,他們有相同的地方,也有不同的地方。
共同點:貪心演算法,自上而下。
不同點:屬性選擇度量方案不同
5.
樹減枝葉(避免
overfitting)
a.先剪枝:分到一定程度不再分
b.後剪枝:完全先把樹建好,在根據一定標準剪葉子。
6.決策樹優缺點:
優點:直觀,小規模資料集有效
缺點:在處理連續型變數時不好
;類別較多時,錯誤增加的比較多
;可規模性一般。
二
.決策樹的實現
1.python
機器學習的庫:
scikit-learn
1.1特性:
簡單高效地資料探勘和機器學習分析
對所有使用者開放,根據不同需求高度可重用性
基於numpy
,scipy
和matplotlib
開源,商用級別:獲得
bsd許可
1.2覆蓋問題領域:
分類(classification),
回歸(regression),
聚類(clustering),
降維(dimensionality reduction)
模型選擇
(model selection),
預處理(preprocessing)
機器學習筆記 監督學習之決策樹
0機器學習中分類和 演算法的評估 1決策樹 判定樹 的概念 決策樹是乙個類似於流程圖的樹結構 可以是二叉樹或多叉樹 其中,每個內部結點表示在乙個屬性上的測試,每個分支代表乙個屬性輸出,而每個樹葉結點代表類或類分布。樹的最頂層是根結點。機器學習中分類方法中的乙個重要演算法。2.熵 entropy 概念...
ML演算法 監督學習 決策樹ID3演算法
id3演算法是決策樹的經典,也是基礎演算法,本文將詳細介紹id3演算法。id3演算法的核心是在決策樹各個節點上通過計算每個屬性的資訊增益來進行分枝節點的選擇,我在 另一篇文章中已經介紹來資訊增益,這篇文章將直接介紹演算法。id3演算法是迭代演算法,通過計算每個屬性的資訊增益不斷生成決策樹分枝,最終將...
機器學習 監督學習之決策樹分類模型
a.一種樹形結構的分類器。b.通過順序詢問分類點的屬性決定分類點的最終類別。c.決策樹的構建通常根據特徵的資訊增益或其他指標。d.分類時,只需要按照決策樹中的結點依次進行判斷,即可得到樣本所屬類別。eg 信用卡償還能力分類決策樹 可通過sklearn.tree.decisiontreeclassif...