元組(x,y):x指屬性集合,y指分類屬性
目標函式又稱為分類模型:描述性建模;**性建模
分類技術是一種根據輸入資料集建立分類模型的系統方法。
學習演算法確定分類模型;泛化能力模型
訓練集;檢驗集
分類模型效能評估:
1.正確錯誤計數(混淆矩陣)
2.錯誤率,正確率
決策樹:根結點,內部結點(屬性測試條件),葉結點(類標號)
屬性集太大,決策樹高度指數級,區域性最優決策構造具有一定準確率的次優決策樹
1.hunt演算法:(基本思想:已經確定了類別的結點不用繼續分解下去)
2.決策樹歸納的設計問題
如何**訓練記錄;如何停止分類過程
二元屬性:二元劃分
標稱屬性:二元劃分或多路劃分
序數屬性:二元劃分或多路劃分,不能違背有序性
連續屬性:測試條件選擇比較測試二元輸出;離散化策略
選擇最佳劃分的度量通常是根據劃分後子女結點不純性的程度。不純性度量方法:
為確定測試條件的效果,需比較父節點和子女結點的不純程度。差越大,測試條件越好。
增益:
決策樹歸納採用最大化增益的測試條件,即最小化子女結點的不純性度量的加權平均。
當選擇熵作為不純度量時,熵的差就是資訊增益。
1.二元屬性的劃分
2.標量屬性的劃分
3.連續屬性的劃分
4.增益率:決策樹演算法c4.5
1.構建分類模型的非引數方法
2.np完全問題
3.計算代價小
4.決策樹容易解釋
5.學習離散值
6.避免過分擬合
7.冗餘資料不會造成影響
8.葉結點記錄少,不具統計意義:資料碎片問題設定閾值
9.子樹重複問題
10.測試條件只涉及乙個屬性:斜決策樹
11.不純度量方法影響小
決策樹 基本概念
熵計算公式 h x p xi log 2,p xi i 1,2,n 栗子1 義烏雜貨市場商品很多很混亂熵值會比較大 栗子2 蘋果專賣店只有蘋果品牌比較穩定,熵值很小 資訊增益 表示特徵x使得類y的不確定減少的程度 gini係數 2 1 14天outlook情況 outlook sunny時,熵值為0...
決策樹 結構 決策樹及其基本概念
決策樹主要知識 決策樹 決策樹 在分類問題中,表示基於特徵對例項進行分類的過程。決策樹可以認為是1.if then規則的集合 2.定義在特徵空間與類空間上的條件概率分布。決策樹優點 模型具有可讀性,分類速度快。決策樹學習與 過程 決策樹 分類決策樹描述對例項進行分類的樹形結構。由結點 node 節點...
第四章(1) 分類 決策樹
分類任務就是確定物件屬於哪個預定義的目標類 分類的屬性集可以包含連續屬性,但類標號必須是離散的,這是分類與回歸的區別,回歸的目標屬性y是連續的 分類任務就是通過學習得到乙個目標函式 分類模型 把屬性集x對映到乙個預先定義的類標號y 分類模型可以作為解釋性工具,區分不同類中的物件 未知記錄的類標號 分...