機器學習筆記 隨機森林

2021-10-09 20:56:16 字數 1085 閱讀 8875

隨機森林是典型的bagging整合演算法,它的所有基評估器都是決策樹。分類樹整合的森林叫隨機森林分類器,回歸樹整合的森林叫隨機森林回歸器。

重要引數

max_depth:限制樹的最大深度,超過設定深度的樹枝全部剪掉。

min_samples_leaf:限定,乙個節點在分枝後的每個子節點都必須包含至少min_samples_leaf個訓練樣本,否則分枝就不會發生,或者,分枝會朝著滿足每個子節點都包含min_samples_leaf個樣本的方向去發生 。

min_samples_splite:限定,乙個節點必須要包含min_samples_split個訓練樣本,這個節點才允許被分枝,否則 分枝就不會發生。

max_features:限制分枝時考慮的特徵個數,超過限制個數的特徵都會被捨棄。

min_impurity_decrease:限制資訊增益的大小,資訊增益小於設定數值的分枝不會發生。

當n趨向正無窮時,概率收斂於1-(1/e),約等於0.632。因此會有37%的資料被浪費掉,沒有參與建模,這些資料被稱為袋外資料(out of bag data,oob),這些袋外資料可以當做測試集來使用。

也就是說,在使用隨機森林時,可以不劃分訓練集和測試集,只需用袋外資料來充當測試集即可。

如果希望用袋外資料來測試,則需要在例項化時就將oob_score這個引數調整為true,訓練完畢之後,我們可以用 隨機森林的另乙個重要屬性:oob_score_來檢視我們的在袋外資料上測試的結果:

#無需劃分訓練集和測試集

rfc=randomforestclassifier(n_estimators=

25,oob_score=

true

)rfc=rfc.fit(wine.data,wine.target)

#重要屬性:oob_score_

rfc.oob_score_

重要介面

注意:當ji基分類器的誤差率小於0.5,即準確率大於0.5時,整合的效果要比基分類器的效果好。相反,當基分類器的誤差率大於0.5時,袋裝的整合演算法就失效了。

機器學習 隨機森林

opencv包含隨機森林 random forest 類,隨機森林可以通過收集很多樹的子節點對各個類別的投票,然後選擇獲得最多投票的類別作為判斷結果。通過計算 森林 的所有子節點上的值的平均值來解決回歸問題。隨機森林包含隨機選擇的一些決策樹。隨機森林建立時的基本子系統也是決策樹,在建立決策樹時會一直...

機器學習 隨機森林

以下內容均為個人理解,如有錯誤,歡迎指出 如何生成隨機森林基學習器的訓練資料集 隨機 的含義 bagging整合學習的評測方法 隨機森林的引數 以下內容摘自周志華老師的 機器學習 隨機森林是bagging的乙個擴充套件變體,它在以決策樹為基學習器構建的bagging整合的基礎上,進一步在決策樹的訓練...

機器學習 隨機森林

以決策樹為基礎 隨機森林 決策樹的乙個主要缺點在於經常對訓練的資料過擬合。隨機森林是解決這個問題的一種方法。隨機森林的本質上是很多決策樹的集合,其中那個每棵樹都和其他樹略有不同。隨機森林背後砈思想史是,每棵樹的 都可能相對較好,但可能對部分書聚過擬合,如果我們構建很多樹,並且每棵樹都可以 的很好,但...