三、決策樹的用途例項
分成三類:分別標為紫色,黃色和綠色。它們的資訊熵為0.
決策樹對訓練屬於有很好的分類能力,但對 未知的測試資料未必有好的分類能力,泛化能力弱,即可能發生過擬合現象。
剪枝 隨機森林
a、bootstrap aggregation
b、從樣本集中重取樣(有重複的)選出n個樣本
c、在所有屬性上,對這n個樣本建立分類器(id3、 c4.5、cart、logistic回歸等)
重複以上兩步m次,
d、即獲得了m個分類器
e、將資料放在這m個分類器上,最後根據這m 個分類器的投票結果,決定 資料屬於
哪一類

■ 隨機森林在bagging基礎上做了修改。
從樣本集中用bootstrap取樣選出n個樣本;
從所有屬性中隨機選擇k個屬性,選擇最佳分割屬性作為節點建立cart決策樹;
■重複以上兩步m次,即建立了m棵cart決策樹
這m個cart形成隨機森林,通過投票表決結果,決定資料屬於哪一類
■當然可以使用決策樹作為基本分類器
■但也可以使用svm、logistic回歸等其他分類器,習慣上,這些分類器組成的「總分類器」,仍然叫做隨機森林。
■舉例回歸問題應用舉例
口假定樣本數目a模擬b類多,且嚴重不平衡:
a類欠取樣undersampling
口隨機欠取樣
口a類分成若干子類,分別與b類進入ml模型
口基於聚類的a類分割
b類過取樣oversampling
口避免欠取樣造成的資訊丟失
b類資料合成synthetic data generation
口隨機插值得到新樣本
口 smote(synthetic minority over-sampling technique)
代價敏感學習cost sensitive learning
口降低a類權值,提高b類權值
口隨機森林是常用的衡量特徵重要性的方法。
計算正例經過的結點,使用經過結點的數目、經過結點的gini係數和等指標。或者,
隨機替換一列資料,重新建立決策樹,計算新模型的正確率變化,從而考慮這一列
特徵的重要性。
口selection frequency
口gini importance
口permutation importance
口 決策樹/隨機森林的**清晰、邏輯簡單,在勝任分類問題的同時,往往也可以作為對資料分布
探索的首要嘗試演算法。
口隨機森林的整合思想也可用在其他分類器的設計中。
口如果通過隨機森林做樣本的異常值檢測?
■統計樣本間位於相同決策樹的葉結點的個數,形成樣本相似度矩陣。
口如果正負樣本數量差別很大,如何處理?
口思考:在得到新決策樹後,對樣本的權值進行合理的調整一 分類正確的則降低權值,分類錯誤的
則增大權值一-是否可行?
機器學習基礎演算法筆記
緒論 接下來我們來看看在機器學習裡面的一些演算法 1.線性回歸 是利用稱為線性回歸方程序的最小平方函式對乙個或多個自變數和應變數之間關係進行建模的一種回歸分析。這種函式是乙個或多個稱為回歸係數的模型引數的線性組合。只有乙個自變數的情況稱為簡單回歸,大於乙個自變數情況的叫做多元回歸。線性回歸是回歸分析...
機器學習基礎演算法(一)
簡介 k 近鄰法是一種基本分類與回歸方法。基本原理為 存在乙個已知資料集,每個資料集都存在標籤,輸入沒有標籤的新資料後,將新的資料的每個特徵與樣本集中資料對應的特徵進行比較,然後演算法提取樣本最相似資料 最近鄰 的分類標籤。一般來說,我們只選擇樣本資料集中前k個最相似的資料,這就是k 近鄰演算法中k...
機器學習 基礎演算法(八)
聚類就是對大量未知標註的資料集,按資料的內在相似性將資料集劃分為多個類別,使類別內的資料相似度較大 而類別間的資料相似度較小。無監督 口給定乙個有n個物件的資料集,構造資料的k個簇,ksn。滿足下列條件 每乙個簇 至少包含乙個物件 每乙個物件屬於 且僅屬於乙個簇 將滿足上述條件的k個簇稱作乙個合理劃...