用多個模型來解決乙個問題,就是整合
怎麼樣得到乙個好的整合?
需要個體盡可能的精確,而且它們的差異性,多樣性盡可能的大
按整合中個體的生成方式來說,可以分為兩大方法
一棵樹是決策樹,多棵樹是隨機森林,解決了決策樹泛化能力弱的缺點。因為決策樹是一棵樹,它是有乙個決策的可能性,如果是多棵樹,每棵樹都有乙個決策權,這樣把所有樹的結果綜合在一起,這樣的分類能力會比單棵樹的決策能力強很多。
隨機選擇樣本
隨機選擇特徵
隨機森林中的每棵樹是怎麼構造的?
每一棵樹是從整個訓練樣本集中,隨機選取固定數量的樣本集,選取固定數量的特徵集,來構建一棵決策樹,相當於這個樣本數和特徵數都是總樣本數和總特徵集的乙個子集,而且是乙個有放回的抽取過程。
每一棵決策樹都有乙個分類結果,有很多決策樹,把所有的結果根據少數服從多數的原則綜合到一起
投票選舉
隨機森林相比於決策樹擁有出色的效能主要取決於隨機抽取樣本、特徵和整合演算法,前者讓它具有更穩定的抗過擬合能力,後者讓它有更高的準確率。
想要利用隨機森林進行**,演算法首先對森林中的每棵樹進行**。
對於回歸問題,我們可以對這些結果去平均值作為最終**。
對於分類問題,則用到了「軟投票」(soft voting)策略。也就是說,每個演算法做出「軟」**,給出每個可能的輸出標籤的概率。對於所有樹的**概率取平均值,然後將概率最大的類別作為**結果。
例子:描述:根據已有的訓練集已經生成了對應的隨機森林,隨機森林如何利用某乙個人的年齡(age)、性別(gender)、教育情況(highest educational qualification)、工作領域(industry)以及住宅地(residence)共5個字段來**他的收入層次。
收入層次 :
band 1 : below $40,000
band 2: $40,000 – 150,000
band 3: more than $150,000
隨機森林中每一棵樹都可以看做是一棵cart(分類回歸樹),這裡假設森林中有5棵cart樹,總特徵個數n=5,我們取m=1(這裡假設每個cart樹對應乙個不同的特徵)。
我們要**的某個人的資訊如下:
1. age : 35 years ; 2. gender : male ; 3. highest educational qualification : diploma holder; 4. industry : manufacturing; 5. residence : metro.
根據這五棵cart樹的分類結果,我們可以針對這個人的資訊建立收入層次的分布情況:
final probability是取每棵樹**概率的均值
最後,我們得出結論,這個人的收入層次70%是一等,大約24%為二等,6%為三等,所以最終認定該人屬於一等收入層次(小於$40,000)。
參考:
整合學習 隨機森林
隨機森林 random forest,簡稱rf 是bagging的乙個擴充套件變體。bagging在1996年由beriman提出,作為並行式整合學習方法中最著名的代表,利用自助取樣法。可取樣出t個含m個訓練樣本的取樣集,然後基於每個取樣集訓練出乙個基學習器,再將這些基學習器進行結合。這就是bagg...
整合學習 隨機森林
bagging就是bootstrapaggregating,自舉匯聚法,亦稱為裝袋法。與boosting的不同 個人理解 由於bagging的每個分類器是同階的,則有 e d e 1n i 1ne di e di 偏差.v ar v ar 1 n i 1nva r di 1 nvar di 方 差e...
整合學習與隨機森林理解
什麼是整合學習?整合學習本身不是乙個單獨的機器學習演算法,而是通過構建並結合多個機器學習器來完成學習任務。也就是我們常說的 博採眾長 voting模型 對多個模型訓練某乙個資料集的結果進行投票,少數服從多數的原則,得到最優結果。voting模型的引數voting引數有兩種,預設是hard,直接投票判...