-預設值處理
解決兩個問題。訓練資料預設:屬性缺失的劃分屬性;測試資料預設:屬性缺失的樣本劃分。對於訓練資料屬性值缺失,可以對未缺失資料求解資訊熵進一步參與最優屬性的篩選;對於測試資料屬性缺失,則賦權處理,即放入所有分類,帶權參與後續運算。
-離散化處理
連續資料離散化,c4.5演算法中採用的二分法,使用中位點作為候選劃分線。然而離散化它仍然保留著連續資料的特徵,即本身可作為後代節點的劃分屬性。對於解空間的影響,待**。
-演算法改進
分類問題的改進重點應該在劃分選擇上。對於非葉子節點,也有眾多的**實現了很多優化,比如說使用線性分類器,甚至感知器、神經網路。對於帶權的思想也可以進一步的用在劃分上等等,沒有做深入的**,當然這是最值得**的問題,主要鄙人還在入門,先留下乙個想象的空間。
ML 決策樹學習演算法
1 資料如何分割 屬性的資料型別分為離散型和連續性兩種情況,對於離散型的資料,按照屬性值進行 每個屬性值對應乙個 節點 對於連續性屬性,一般性的做法是對資料按照該屬性進行排序,再將資料分成若干區間,如 0,10 10,20 20,30 乙個區間對應乙個節點,若資料的屬性值落入某一區間則該資料就屬於其...
ML筆記 決策樹
十分有幸可以參加datawhale組隊學習活動,希望可以與datawhale的小夥伴們共同學習,共同進步。決策樹是一種常見的分類模型,在金融分控 醫療輔助診斷等諸多行業具有較為廣泛的應用。決策樹的核心思想是基於樹結構對資料進行劃分,這種思想是人類處理問題時的本能方法。例如在婚戀市場中,女方通常會先看...
ML筆記 決策樹剪枝
無論是分類樹還是回歸樹,剪枝過程很重要,剪枝處理不當或是沒有剪枝操作,決策樹模型都是失敗的,通過剪枝,可以大大提高模型準確度,避免決策樹的過擬合。決策樹生成演算法遞迴地生成決策樹,直到不能繼續下去為止,產生的樹對於訓練集會有很好的模型準確率,但是對於未知的測試資料分類卻沒有那麼準確,因此,對書的剪枝...