全部筆記的彙總貼:《機器學習》西瓜書-讀書筆記彙總貼
可以先看看這個:統計學習方法讀書筆記(五)-決策樹
決策樹(decision tree)是一類常見的機器學習方法。
連續值:採用二分法對連續的屬性進行處理,這也是c4.5決策樹演算法採用的機制。
缺失值:通過計算資訊增益,讓同一樣本以不同的概率劃入到不同的子節點中去。
相當於是乙個多分類的問題,即對同一屬性進行劃分的時候,不再是二分類而是進行多個分類以找到效能最好的決策樹,不再是為每個非葉節點尋找到乙個最優的劃分屬性。
決策樹筆記(西瓜書)
一棵決策樹包含乙個根節點,若干個葉節點,若干個內部節點。每個葉節點表示相對應的決策結果。決策樹的生成是乙個遞迴過程,每個節點會遇到三種情況 當前節點對應的資料集中只有一種類別資料,則無需再劃分 當前節點屬性集為空,或者資料的取值全部相同,則將當前節點設為葉節點,對應的類別為,資料中包含樣本量最多的類...
西瓜書 決策樹
偽 決策樹生成過程就是生成一顆最優的決策樹,一般從根節點開始生成,一步一步往下蔓延 遞迴的過程 那麼選擇哪個屬性作為根節點呢?這就需要乙個判定標準了,說白了就是窮舉 無非就是那麼幾個屬性 既然是決策點 一般稱分支結點 隨著劃分的不斷進行,我們希望決策樹的分支結點所包含的樣本盡可能屬於同一類別,即純度...
0523西瓜書 04決策樹
三 對抗過擬合的手段 剪枝處理 四 如何處理連續值 缺失值 如何選擇最優劃分屬性?我們希望決策樹分支節點所包含的樣本盡可能屬於同一類別,即結點的 純度 越來越高。資訊增益 結點劃分前後資訊熵的差值。資訊增益準則對可取值數目較多的屬性有所偏好,為減少這種偏好可能帶來的不利影響,因此採用增益率來選擇最優...