樹的構建演算法 cart(classification and regression trees, 分類回歸樹)的樹構建演算法。該演算法可以用來分類也可以用來回歸。
樹回歸 原理
原理概述
為了構建以分段常數為葉節點的樹,需要度量出資料的一致性。
首先計算所有資料的均值,然後計算每條資料的值到均值的差值。為了對正負差值同等看待,一般用絕對值或者平方值來代替上述差值。
方差是平方誤差的均值(均方差),而這裡需要的是平方誤差的總值(總方差)。總方差是通過均方差乘以資料集中樣本點的個數來得到的。
樹構建演算法 比較
1.id3 -> 每次選取當前最佳的特徵來分隔資料,並按照該特徵的所有可能值來切分。
2.二分切分法 -> 每次切分將資料集分成兩份。如果資料的某特徵等於切分所要求的值,那麼這些資料進入樹的左子樹,反之進入右子樹。
3.cart切分 -> 是一種非常著名且廣泛記載的構建樹的演算法,它使用二元切分來處理連續型變數。
構建決策樹常用到的三個方法:
id3, c4.5, cart 三種方法的主要區分是劃分分支方法:
1.id3是資訊增益的分支
2.c4.5是資訊增益率的分支
3.cart是gini係數分支
樹回歸工作原理:
對每個特徵:
對每個特徵值:
將資料集切分成兩份(小於該特徵的資料樣本放在左子樹,否則放在右子樹)
計算切分的誤差
如果當前誤差小於當前的最小誤差,那麼當前切分設定為最佳切分並更新最小誤差
返回最佳切分的特徵和閾值
建樹的偽**:
找到最佳的待切分特徵:
如果該節點不能再分,將該節點存為葉子節點
執行二元切分
在右子樹呼叫 createtree() 方法
在左子樹呼叫 createtree() 方法
樹回歸開發流程:
1.收集資料
2.準備資料
3.分析資料
4.訓練演算法
5.測試演算法
6.使用演算法
機器學習筆記 基本概念
首先我們以人來舉例 你在買蘋果的時候,看到乙個蘋果,它黃裡透紅 果皮粗糙 硬度稍軟,我們就可以判斷它比較甜,這是因為我們已經有了類似的經驗,通過對經驗的應用就可以做出相應的判斷。這種對經驗的利用是我們自發形成的,但是機器是否能做到呢。機器學習就是這樣一門學科,它致力於研究如何通過計算的手段,利用經驗...
機器學習筆記(1) 基本概念和線性回歸
計算機從程式經驗e中學習,解決某一任務t,進行某一效能的度量p,通過p測定在t上的表現因經驗e而提高。簡單來說就是從大量的資料學習中,得到乙個符合現實的規律模型,通過模型來 某個資料的結果。首先給演算法乙個包含正確答案的資料集,通過訓練來調整目標函式的引數,使用目標函式獲得更多的正確答案。監督學習中...
機器學習基本概念
什麼是學習?如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。赫爾伯特 西蒙 什麼是機器學習?對於某給定的任務 t 在合理的效能度量方案 p的前提下,電腦程式可以通過自主學習任務 t 的經驗 e 隨著提供合適,優質,大量的經驗 e 該程式對於任務 t的效能逐步提高。任務,經驗,效能 什麼是統...