整合學習 隨機森林

2022-07-02 14:48:12 字數 1859 閱讀 6380

用多個模型來解決乙個問題,就是整合

怎麼樣得到乙個好的整合?

需要個體盡可能的精確,而且它們的差異性,多樣性盡可能的大

按整合中個體的生成方式來說,可以分為兩大方法

一棵樹是決策樹,多棵樹是隨機森林,解決了決策樹泛化能力弱的缺點。因為決策樹是一棵樹,它是有乙個決策的可能性,如果是多棵樹,每棵樹都有乙個決策權,這樣把所有樹的結果綜合在一起,這樣的分類能力會比單棵樹的決策能力強很多。

隨機選擇樣本

隨機選擇特徵

隨機森林中的每棵樹是怎麼構造的?

每一棵樹是從整個訓練樣本集中,隨機選取固定數量的樣本集,選取固定數量的特徵集,來構建一棵決策樹,相當於這個樣本數和特徵數都是總樣本數和總特徵集的乙個子集,而且是乙個有放回的抽取過程。

每一棵決策樹都有乙個分類結果,有很多決策樹,把所有的結果根據少數服從多數的原則綜合到一起

投票選舉

隨機森林相比於決策樹擁有出色的效能主要取決於隨機抽取樣本、特徵和整合演算法,前者讓它具有更穩定的抗過擬合能力,後者讓它有更高的準確率。

想要利用隨機森林進行**,演算法首先對森林中的每棵樹進行**

對於回歸問題,我們可以對這些結果去平均值作為最終**。

對於分類問題,則用到了「軟投票」(soft voting)策略。也就是說,每個演算法做出「軟」**,給出每個可能的輸出標籤的概率。對於所有樹的**概率取平均值,然後將概率最大的類別作為**結果。

例子:描述:根據已有的訓練集已經生成了對應的隨機森林,隨機森林如何利用某乙個人的年齡(age)、性別(gender)、教育情況(highest educational qualification)、工作領域(industry)以及住宅地(residence)共5個字段來**他的收入層次。

收入層次 :

band 1 : below $40,000

band 2: $40,000 – 150,000

band 3: more than $150,000

隨機森林中每一棵樹都可以看做是一棵cart(分類回歸樹),這裡假設森林中有5棵cart樹,總特徵個數n=5,我們取m=1(這裡假設每個cart樹對應乙個不同的特徵)。

我們要**的某個人的資訊如下:

1. age : 35 years ; 2. gender : male ; 3. highest educational qualification : diploma holder; 4. industry : manufacturing; 5. residence : metro.

根據這五棵cart樹的分類結果,我們可以針對這個人的資訊建立收入層次的分布情況:

final probability是取每棵樹**概率的均值

最後,我們得出結論,這個人的收入層次70%是一等,大約24%為二等,6%為三等,所以最終認定該人屬於一等收入層次(小於$40,000)。

參考:

整合學習 隨機森林

隨機森林 random forest,簡稱rf 是bagging的乙個擴充套件變體。bagging在1996年由beriman提出,作為並行式整合學習方法中最著名的代表,利用自助取樣法。可取樣出t個含m個訓練樣本的取樣集,然後基於每個取樣集訓練出乙個基學習器,再將這些基學習器進行結合。這就是bagg...

整合學習 隨機森林

bagging就是bootstrapaggregating,自舉匯聚法,亦稱為裝袋法。與boosting的不同 個人理解 由於bagging的每個分類器是同階的,則有 e d e 1n i 1ne di e di 偏差.v ar v ar 1 n i 1nva r di 1 nvar di 方 差e...

整合學習與隨機森林理解

什麼是整合學習?整合學習本身不是乙個單獨的機器學習演算法,而是通過構建並結合多個機器學習器來完成學習任務。也就是我們常說的 博採眾長 voting模型 對多個模型訓練某乙個資料集的結果進行投票,少數服從多數的原則,得到最優結果。voting模型的引數voting引數有兩種,預設是hard,直接投票判...