在機器學習中,隨機森林是乙個包含多個決策樹的分類器。要說隨機森林,必須先講決策樹。決策樹是一種基本的分類器,一般是將特徵分為兩類。構建好的決策樹呈樹形結構,可以認為是if-then規則的集合,主要優點是模型具有可讀性,分類速度快。決策樹的主要工作,就是選取特徵對資料集進行劃分,最後把資料貼上兩類不同的標籤。如何選取最好的特徵呢?在現實應用中,我們用不同的準則衡量特徵的貢獻程度。主流準則的列舉3個:id3演算法,採用資訊增益最大的特徵;c4.5演算法採用資訊增益比選擇特徵;cart演算法利用基尼指數最小化準則進行特徵選擇。
待選特徵:在決策樹的構建過程中,需要按照一定的次序從全部的特徵中選取特徵。待選特徵就是在目前的步驟之前還沒有被選擇的特徵的集合。例如,全部的特徵是 abcde,第一步的時候,待選特徵就是abcde,第一步選擇了c,那麼第二步的時候,待選特徵就是abde。
**特徵:接待選特徵的定義,每一次選取的特徵就是**特徵,例如,在上面的例子中,第一步的**特徵就是c。因為選出的這些特徵將資料集分成了乙個個不相交的部分,所以叫它們**特徵。
決策樹相當於乙個大師,通過自己在資料集中學到的知識對於新的資料進行分類。但是俗話說得好,乙個諸葛亮,玩不過三個臭皮匠。隨機森林就是希望構建多個臭皮匠,希望最終的分類效果能夠超過單個大師的一種演算法。
那隨機森林具體如何構建呢?有兩個方面:資料的隨機性選取,以及待選特徵的隨機選取。
資料的隨機選擇:
首先,從原始的資料集中採取有放回的抽樣,構造子資料集,子資料集的資料量是和原始資料集相同的。不同子資料集的元素可以重複,同乙個子資料集中的元素也可以重複。第二,利用子資料集來構建子決策樹,將這個資料放到每個子決策樹中,每個子決策樹輸出乙個結果。最後,如果有了新的資料需要通過隨機森林得到分類結果,就可以通過對子決策樹的判斷結果的投票,得到隨機森林的輸出結果了。假設隨機森林中有3棵子決策樹,2棵子樹的分類結果是a類,1棵子樹的分類結果是b類,那麼隨機森林的分類結果就是a類。、
待選特徵的選擇:
與資料集的隨機選取類似,隨機森林中的子樹的每乙個**過程並未用到所有的待選特徵(意思:不是從所有的待選特徵中選擇最有優的),而是從所有的待選特徵中隨機選取一定的特徵(隨機選擇現有待選特徵中的幾個),之後再在隨機選取的特徵中選取最優的特徵。這樣能夠使得隨機森林中的決策樹都能夠彼此不同,提公升系統的多樣性,從而提公升分類效能。
隨機森林隨機 三
2018年7月22日 陣雨 感冒發燒喉嚨疼,只因為一杯正常冰的奶蓋!以後得少喝加冰的東西了.前面說的是整合學習的兩種形式,這跟隨機森林有啥關係呢?隨機森林是bagging的乙個擴充套件變體.簡單的來說,當bagging演算法中的base learner為決策樹並在訓練決策樹的過程中加入隨機屬性選擇,...
隨機森林演算法
random forest是加州大學伯克利分校的breiman leo和adele cutler於2001年發表的 中提到的新的機器學習演算法,可以用來做分類,聚類,回歸,和生存分析,這裡只簡單介紹該演算法在分類上的應用。random forest 隨機森林 演算法是通過訓練多個決策樹,生成模型,然...
理解隨機森林
理解隨機森林 隨機森林利用隨機的方式將許多決策樹組合成乙個森林,每個決策樹在分類的時候投票決定測試樣本的最終類別。下面我們再詳細說一下隨機森林是如何構建的。隨機森林主要包括4個部分 隨機選擇樣本 隨機選擇特徵 構建決策樹 隨機森林投票分類。給定乙個訓練樣本集,數量為n,我們使用有放回取樣到n個樣本,...