上一節學習了決策樹:
最後說到提公升決策樹的效能,整合就是非常強大的解決方案。
借助乙個圖,直觀的了解整合學習:
bagging是整合個體學習器的一種方式,它的思想十分簡單:
a.對原始樣本進行有放回取樣,得到乙個樣本子集,用這個樣本子集去訓練,得到乙個學習器。
b.重複以上步驟,得到n個樣本子集,訓練出n個學習器。
c.**目標樣本時,用這n個學習器進行投票法(分類問題中)、平均值法(回歸問題中)等方法。
隨機森林時bagging方法的典型代表,同時也是決策樹的提公升優化。
隨機森林的過程:(1)、從總樣本中有放回的隨機取樣,得到m組樣本子集。
(2)、在m組樣本子集中,各自分別隨機選擇k個特徵值作為本子集的訓練特徵,訓練出m個決策樹。
(3)、predict——以m個弱分類器**的結果投票或者取平均值。
以上即是隨機森林的思想,sklearn的實現中,需要調整的引數一般是決策樹的數目(50~100),特徵數量k,結果的**的方法以及決策樹中的一些引數。
extra tree 是隨機森林的乙個變種,不常用。但是在隨機森林都過擬合的情況下,可以嘗試這個演算法。
extra tree和隨機森林的主要區別如下:
(1)、rf用於訓練的樣本子集是隨機取樣的,而extra tree每次都直接使用原始樣本。
(2)、rf特徵選擇使用的是最優選擇(即使用資訊增益、基尼係數等選擇),而extra tree則是使用隨機選擇的方式。因為是隨機選擇,所以一般extra tree生成的決策森林一般比較大,方差較小,泛化能力強。
trte不是分類回歸演算法,而是一種非監督的資料轉化方式,可以將低維的資料對映到高維,從而讓高維的資料更好得用於分類回歸模型。。
一種異常點檢測演算法。
機器學習筆記(七) 整合學習概述
整合學習 ensemble learning 是通過組合多個基分類器 baseclassifier 來完成學習任務。基分類器一般採用的是弱可學習分類器,通過整合學習,組合成乙個強可學習分類器。整合學習主要分為兩類 一是個體學習器間存在強大依賴關係 必須序列生成的序列化方法,代表演算法 boostin...
機器學習筆記14 整合 B B
整合 b b bagging 和 boosting 是提高監督式學習方案準確性的兩種常見整合方法。收集一堆簡單規則,並且這些規則都有點意義 能提供一些幫助。但是,單靠某乙個規則無法得到最好的答案,合併成乙個效果不錯的複雜規則。先通過某個資料子集進行學習,形成某個規則 然後通過另一資料子集進行學習,再...
機器學習之整合學習
整合學習 ensemble learning 通過構建並結合多個弱學習器來完成學習任務。一般來說整合學習可以分為三大類 bagging又叫做自舉匯聚法,思想是 常見的推廣演算法有 extra tree是隨機森林的變種,原理和隨機森林一樣,區別如下 主要用於異常點檢測 在隨機取樣的過程中,一般只需要少...