使用的書是 統計學習方法 +機器學習實戰;
參考部落格 感謝;
自己寫一下,方便以後理解; 使用決策樹做**需要以下過程:
收集資料:可以使用任何方法。比如想構建乙個相親系統,我們可以從媒婆那裡,或者通過參訪相親物件獲取資料。根據他們考慮的因素和最終的選擇結果,就可以得到一些供我們利用的資料了。
準備資料:收集完的資料,我們要進行整理,將這些所有收集的資訊按照一定規則整理出來,並排版,方便我們進行後續處理。
分析資料:可以使用任何方法,決策樹構造完成之後,我們可以檢查決策樹圖形是否符合預期。
訓練演算法:這個過程也就是構造決策樹,同樣也可以說是決策樹學習,就是構造乙個決策樹的資料結構。
測試演算法:使用經驗樹計算錯誤率。當錯誤率達到了可接收範圍,這個決策樹就可以投放使用了。
使用演算法:此步驟可以使用適用於任何監督學習演算法,而使用決策樹可以更好地理解資料的內在含義。
在決策樹搭建的過程中,我們要選擇節點,那麼選擇節點的依據是什麼?
介紹兩個概念 資訊熵和資訊熵增益(選擇的依據)。
簡單理解 資訊熵就是 代表資訊量的多少、 不確定性的大小、事物的簡單複雜;
資訊熵的計算物件 通常是某個特徵(1列)或者分類物件(1列);通常是乙個已知數。
那麼資訊熵增益又是什麼?
簡單說 資訊熵增益既然是衡量節點的東西 ,那麼它必然是 特徵對最後的分類的影響的體現;
具體就是 特徵對分類的資訊熵約束能力的大小。(資訊熵增益大,代表特徵對分類的資訊熵約束能力的大,代表
特徵會使得原來分類的資訊熵變得非常小,不確定性變小)。
資訊熵增益公式
機器學習 決策樹
一 基本概念 決策樹 decision tree 是一種基本的分類與回歸方法。決策樹模型呈樹形結構,在分類問題中,表示屬於特徵對例項進行分類的過程,它可以認為是if then規則的集合,也可以認為是電議在特徵空間與類空空上的條件概率分布,其主要優點是模型具有可讀性,分類速度快。決策樹的學習通常包括3...
機器學習 決策樹
我覺得決策樹是機器學習所有演算法中最可愛的了 沒有那麼多複雜的數學公式哈哈 下圖是一棵決策樹,用來判斷西瓜是好瓜還是壞瓜 決策過程中提出的每個判定問題都是都對某個屬性的測試,每個測試結果要麼推導出最終結論,要麼匯出進一步判斷的問題,在上次決策結果限定的範圍內做進一步判斷。從上圖可以看出,葉節點對應決...
機器學習 決策樹
一 演算法簡介 決策樹一般都是自上而下來生成的,每個決策後事件 即自然狀態 都可能引出兩個或多個事件,導致結果的不同,把這種結構分支畫成形狀很像一棵樹的枝幹,故稱為決策樹。決策樹能夠讀取資料集合,並且決策樹很多任務都是為了資料中所蘊含的知識資訊,因此決策樹可以使用不熟悉的資料集合,並從中提取一系列規...