隨機森林是由許多決策樹組成的模型。 該模型不僅簡單地對樹木的**取平均值(我們可以稱其為「森林」),還使用了兩個關鍵概念,將其命名為random:
建造樹時隨機抽取訓練資料點
分割節點時考慮的特徵的隨機子集
隨機抽取訓練觀察結果
訓練時,隨機森林中的每棵樹都會從總數據點隨機選取訓練樣本學習。 樣本是通過替換繪製的,稱為自舉,這意味著某些樣本將在一棵樹中多次使用。 這個想法是通過在不同的樣本上訓練每棵樹,儘管每棵樹相對於特定的訓練資料集可能具有較高的方差,但總體而言,整個森林將具有較低的方差,同時不會以增加偏差為代價。
在測試時,通過平均每個決策樹的**來進行**。 在不同的自舉資料子集上訓練每個學習者,然後平均**值的此過程稱為bagging,是自舉聚合的縮寫。
用於分割節點的特徵的隨機子集
隨機森林中的另乙個主要概念是,僅考慮所有特徵的子集來拆分每個決策樹中的每個節點。通常將其設定為sqrt(n_features)進行分類,這意味著,如果在每個樹中的每個節點上有16個要素,則僅考慮4個隨機要素來拆分該節點。
隨機森林組合了數百或數千個決策樹,在一組稍有不同的觀測值上訓練每個決策樹,並在考慮有限數量特徵的情況下拆分每棵樹中的節點。隨機森林的最終**是通過對每棵單獨的樹的**求平均而得出的。
要了解為什麼隨機森林比單一決策樹更好,請想象以下情形:您必須決定tesla的股價是否會**,並且可以與十幾位對公司一無所知的分析師接觸。每個分析師的偏見都很低,因為他們沒有任何假設,並且可以從新聞報道的資料集中學習。
這似乎是乙個理想的情況,但是問題是報告除了實際訊號之外還可能包含雜訊。因為分析人員的**完全基於資料(他們具有很高的靈活性),所以它們可能會被無關的資訊所左右。分析人員可能會從同一資料集中得出不同的**。而且,每位分析師的差異很大,如果給與不同的培訓報告集,他們將得出截然不同的**。
解決方案是不依靠任何個人,而是集中每一位分析師的選票。此外,就像在隨機森林中一樣,允許每個分析人員僅訪問報告的一部分,並希望通過取樣可以消除嘈雜資訊的影響。在現實生活中,我們依賴多個**,因此,決策樹不僅直觀,而且將它們組合在隨機森林中的想法也是如此。
隨機森林隨機 三
2018年7月22日 陣雨 感冒發燒喉嚨疼,只因為一杯正常冰的奶蓋!以後得少喝加冰的東西了.前面說的是整合學習的兩種形式,這跟隨機森林有啥關係呢?隨機森林是bagging的乙個擴充套件變體.簡單的來說,當bagging演算法中的base learner為決策樹並在訓練決策樹的過程中加入隨機屬性選擇,...
隨機森林演算法
random forest是加州大學伯克利分校的breiman leo和adele cutler於2001年發表的 中提到的新的機器學習演算法,可以用來做分類,聚類,回歸,和生存分析,這裡只簡單介紹該演算法在分類上的應用。random forest 隨機森林 演算法是通過訓練多個決策樹,生成模型,然...
理解隨機森林
理解隨機森林 隨機森林利用隨機的方式將許多決策樹組合成乙個森林,每個決策樹在分類的時候投票決定測試樣本的最終類別。下面我們再詳細說一下隨機森林是如何構建的。隨機森林主要包括4個部分 隨機選擇樣本 隨機選擇特徵 構建決策樹 隨機森林投票分類。給定乙個訓練樣本集,數量為n,我們使用有放回取樣到n個樣本,...