隨機森林知識點總結

2021-10-06 05:43:41 字數 918 閱讀 9744

隨機森林的隨機是在構建樹時對訓練資料點進行隨機抽樣,分割節點時,考慮特徵的隨機子集。

隨機森林由決策樹組成,決策樹實際上是將空間用超平面進行劃分的一種方法,每次分割的時候,都將當前的空間一分為二

隨機森林生成的樹是完全生長的,便於計算每個特徵的重要程度。隨機森林思想是構建優秀的樹,優秀的樹需要優秀的特徵。那麼我們就需要隨機改變特徵值,然後測試改變前後的誤差率。誤差率的差距是該特徵在樹中的重要程度。然後求在每棵樹在該特徵的誤差率之和稱為該特徵在森林中的重要程度。然後按照重要程度排序,去除森林中重要程度低的部分特徵。直到剩餘特徵數為m為止。然後再算出每個樣本在所有森林中的誤差率,得到最優秀的森林。

至此我們的隨機森林就計算完成啦。最後總結一下隨機森林的計算步驟:

(1)匯入資料,條件及其結果(比如女孩自身條件是條件,小木是否選擇見面是結果)

(2)設定乙個常數n,作為篩選的樣本數目(一般小於樣本總數m,由於該舉例裡面樣本太少了,所以我就讓n=m了)。

(3)設定乙個常數a,作為篩選條件的數目(一般小於總數)

(4)設定乙個常數x,作為決策樹數目,並建立x個決策樹(建立時,每個決策樹隨機選定數目為a的條件,隨即選定數目為n的樣本)

(5)建立完成後,帶入測試樣本,以結果少數服從多數或平均值作為最終測試結果,並與真實結果做對比,判斷是否符合實際。

隨機森林需要剪枝嗎?

不需要,==後剪枝是為了避免過擬合,隨機森林隨機選擇變數與樹的數量,已經避免了過擬合,沒必要去剪枝了。==一般rf要控制的是樹的規模,而不是樹的置信度,剩下的每棵樹需要做的就是盡可能的在自己所對應的資料(特徵)集情況下盡可能的做到最好的**結果。剪枝的作用其實被整合方法消解了,所以用處不大

為什麼要有放回的抽樣?

保證樣本集間有重疊,若不放回,每個訓練樣本集及其分布都不一樣,可能導致訓練的各決策樹差異性很大,最終多數表決無法 「求同」,即最終多數表決相當於「求同」過程。

隨機森林 知識點

1.整合演算法包括 2.構造隨機森林的4個步驟 3.隨機森林用於回歸和分類 處理分類問題 對於測試樣本,森林中每棵決策樹會給出最終類別,最後綜合考慮森林內每一棵決策樹的輸出類別,以投票方式來決定測試樣本的類別 處理回歸問題 以每棵決策樹輸出的均值為最終結果 4.隨機森林的隨機性 樣本的隨機性,從訓練...

知識點總結

1,迴圈中的中斷 continue 跳出此次迴圈,繼續for迴圈 break 跳出當前for迴圈 return 跳出當前方法 2,字串的操作 componentseparatedbystring stringbyreplacingoccurencesofstring withstring iskin...

知識點總結

oncreate onstrat onresume onpause onstop onrestart ondestroy standard 啟動activity都會產生乙個新的activity 預設模式 singletop 啟動activity允許多個,但不允許重疊 singletask 只允許有乙...