前言
提到森林,就不得不聯想到樹,因為正是一棵棵的樹構成了龐大的森林,而在本篇文章中的」樹「,指的就是decision tree-----決策樹。隨機森林就是一棵棵決策樹的組合,也就是說隨機森林=boosting+決策樹,這樣就好理解多了吧,再來說說gbdt,gbdt全稱是gradient boosting decision tree,就是梯度提公升決策樹,與隨機森林的思想很像,但是比隨機森林稍稍的難一點,當然效果相對於前者而言,也會好許多。由於本人才疏學淺,本文只會詳細講述random forest演算法的部分,至於gbdt我會給出一小段篇幅做介紹引導,讀者能夠如果有興趣的話,可以自行學習。
隨機森林演算法
決策樹要想理解隨機森林演算法,就不得不提決策樹,什麼是決策樹,如何構造決策樹,簡單的回答就是資料的分類以樹形結構的方式所展現,每個子分支都代表著不同的分類情況,比如下面的這個圖所示:
f0在這裡是初始值,ti是一棵棵的決策樹,不同的問題選擇不同的損失函式和初始值。在阿里內部對於此演算法的叫法為treelink。所以下次聽到什麼treelink演算法了指的就是梯度提公升樹演算法,其實我在這裡省略了很大篇幅的數學推導過程,再加上自己還不是專家,無法徹底解釋清數學的部分,所以就沒有提及,希望以後有時間可以深入學習此方面的知識。
隨機森林 Boost和GBDT
若干決策樹組成,每乙個決策樹很小,只有問題屬性中的一小個子集,然後將所以小的決策樹組合起來,用投票法決定分類。在資料集上表現良好 在當前的很多資料集上,相對其他演算法有著很大的優勢 它能夠處理很高維度 feature很多 的資料,並且不用做特徵選擇 why?在訓練完後,它能夠給出哪些feature比...
隨機森林和GBDT進行比較
4,gbdt和隨機森林的相同點 1 都是由多棵樹組成 2 最終的結果都是由多棵樹一起決定 5,gbdt和隨機森林的不同點 1 組成隨機森林的樹可以是分類樹,也可以是回歸樹 而gbdt只由回歸樹組成 2 組成隨機森林的樹可以並行生成 而gbdt只能是序列生成 3 對於最終的輸出結果而言,隨機森林採用多...
隨機森林隨機 三
2018年7月22日 陣雨 感冒發燒喉嚨疼,只因為一杯正常冰的奶蓋!以後得少喝加冰的東西了.前面說的是整合學習的兩種形式,這跟隨機森林有啥關係呢?隨機森林是bagging的乙個擴充套件變體.簡單的來說,當bagging演算法中的base learner為決策樹並在訓練決策樹的過程中加入隨機屬性選擇,...