隨機森林 筆錄

2021-09-08 08:25:17 字數 1840 閱讀 2407

決策樹有些與生俱來的缺點:

1:分類規則複雜

決策樹演算法在產生規則的時候採用區域性貪婪法。每次都只選擇乙個屬性進行分析構造決策樹,所以再產生的分類規則往往相當複雜。

2:收斂到非全域性的區域性最優解

id3演算法每次在樹的某個層次進行屬性選擇時,它不再回溯重新考慮這個選擇,所以它容易產生盲人登山中常見的風險,僅僅收斂到非全域性的區域性最優解。

3:過度擬合

在決策樹學習中,由於分類器過於複雜,它可能會過於適應雜訊,從而導致過度擬合問題。

為了克服以上的缺點,引入了另外乙個**模型-----隨機森林

一:森林思想

單個的決策樹可以按照一定的精度分類,為了提高精度,一種比較容易想到的方法就是種植一片森林,並讓所有的樹都參加投票,選出投票最多的分類標籤。

下面舉例說明:

我們根據歷史資料建立起了一片由決策樹組成的森林,下面我們要根據某個使用者的特徵來分析他是否會購買某件商品,分類標籤只有兩類:yes no。

假設100棵決策樹中有90棵樹給它貼的標籤為yes,10棵給它貼的標籤為no,那我們最後就選擇標籤yes.這樣就避免了一棵樹說了算的局面。

二:隨機思想

隨機森林的隨機體現在它的每棵決策樹的構造過程

隨機森林的構造方法有很多,下面以bagging方法舉例:

1:假設原始樣本數為n,用bootstrap方法從n樣本中獲取構造每棵決策樹的訓練集。

bootstrap方法的實質就是一種自助法,一種非引數統計的方法:對觀察的資訊(這裡指原始的樣本)進行n次隨機的可重複的取樣,以此來獲取構造每棵決策樹的訓練集。bootstrap充分利用了給定的觀測資訊,不需要模型、其他假設和增加新的觀測,並有穩定性和效率高的特點。

2:如果樣本資訊有m個屬性,每次隨機的從m個屬性中選擇m個屬性來進行建樹(建樹過程跟普通決策樹過程一樣),其中m<3:這樣每棵樹的葉子節點,要麼是無法繼續**,要麼裡面的所有樣本都指向同乙個分類標籤。

有了上面的隨機性,這樣建立起來的每一棵決策樹都不會出現過度擬合的現象,也不需要裁枝處理。

小結:這樣每一棵決策樹就是一位精通某一領域(m個features)的專家,在隨機森林中就有了很多精通不同領域的專家,對乙個新問題,可以從不同的角度來觀察,最終由各個專家,投票得到結果。

三:隨機森林的特徵

1:在現有演算法中,隨機森林演算法的精度是無可比擬的。

2:隨機森林能夠高效處理大資料集。

3:隨機森林可以處理成千上萬的輸入屬性。

4:隨機森林在分類的應用中可以計算出不同變數屬性的重要性。

5:在構建隨機森林的過程中可以產生乙個關於泛化誤差的內部無偏估計。

6:當大量資料缺失的時候,隨機森林有高效的方法來估計缺失的資料並保持著準確率。

7:在不平衡的資料集中,它含有平衡誤差的方法。

8:已經生成的隨機森林可以儲存下來方便解決以後的問題。

10:計算樣本例項之間的proximities,可以用來聚類分析、異常分析、或者資料的其他有趣的檢視。

上述能力可以拓展為無標籤類資料,匯出無監督聚類方法及資料檢視和異常點檢測。

隨機森林在機器學習領域中的應用還是很多的,所以接下來得弄清楚,它背後的數學基礎和各個特徵的具體實現並用一些資料來感覺下它的強大。

posted on 2018-05-31 23:18收藏

隨機森林隨機 三

2018年7月22日 陣雨 感冒發燒喉嚨疼,只因為一杯正常冰的奶蓋!以後得少喝加冰的東西了.前面說的是整合學習的兩種形式,這跟隨機森林有啥關係呢?隨機森林是bagging的乙個擴充套件變體.簡單的來說,當bagging演算法中的base learner為決策樹並在訓練決策樹的過程中加入隨機屬性選擇,...

隨機森林演算法

random forest是加州大學伯克利分校的breiman leo和adele cutler於2001年發表的 中提到的新的機器學習演算法,可以用來做分類,聚類,回歸,和生存分析,這裡只簡單介紹該演算法在分類上的應用。random forest 隨機森林 演算法是通過訓練多個決策樹,生成模型,然...

理解隨機森林

理解隨機森林 隨機森林利用隨機的方式將許多決策樹組合成乙個森林,每個決策樹在分類的時候投票決定測試樣本的最終類別。下面我們再詳細說一下隨機森林是如何構建的。隨機森林主要包括4個部分 隨機選擇樣本 隨機選擇特徵 構建決策樹 隨機森林投票分類。給定乙個訓練樣本集,數量為n,我們使用有放回取樣到n個樣本,...