什麼是整合學習?
整合學習本身不是乙個單獨的機器學習演算法,而是通過構建並結合多個機器學習器來完成學習任務。也就是我們常說的「博採眾長」。
voting模型
對多個模型訓練某乙個資料集的結果進行投票,少數服從多數的原則,得到最優結果。
voting模型的引數voting引數有兩種,預設是hard,直接投票判斷,而soft是一定的權重比例投票,更準確一些。
缺點:模型數量十分有限
bagging模型
使用更多個子模型對資料集進行取樣學習,使用多個弱學習器實現強學習器的效果。
取樣分為放回取樣和不放回取樣,放回取樣是指在構建乙個子模型的過程中,樣本被抽取後立刻放回。
包外資料:放回取樣可能導致一部分樣本未被取到,這些資料就是包外資料。
bagging模型極其容易並行化。
當弱學習器是決策樹時,bagging模型就是隨機森林。
隨機森林
建立多個決策樹並將他們融合起來得到乙個更加準確和穩定的模型,是bagging 思想和隨機選擇特徵的結合。隨機森林構造了多個決策樹,當需要對某個樣本進行**時,統計森林中的每棵樹對該樣本的**結果,然後通過投票法從這些**結果中選出最後的結果。
隨機體現在兩個方面,乙個是隨機取特徵,另乙個是隨機取樣本,讓森林中的每棵樹既有相似性又有差異性。
隨機森林的引數:
n_estimators:森林中樹木的數量,即基評估器(學習器)的數量
criterion :不純度的衡量指標,有基尼係數和資訊熵兩種選擇
max_depth :樹的最大深度,超過最大深度的樹枝都會被剪掉
min_samples_leaf:乙個節點在分枝後的每個子節點都必須包含至少min_samples_leaf個訓練樣本,否則分枝就不會發生
min_samples_split:乙個節點必須要包含至少min_samples_split個訓練樣本,這個節點才允許被分枝,否則分枝就不會發生
max_features:max_features限制分枝時考慮的特徵個數,超過限制個數的特徵都會被捨棄,預設值為總特徵個數開平方取整
模型的複雜度與泛化誤差的關係
泛化誤差:來衡量模型在未知資料上的準確率的指標,叫做泛化誤差
當模型在未知資料(測試集)上表現糟糕時,我們說模型的泛化程度不夠,泛化誤差大,模型的效果不好。泛化誤差受到模型的結構(複雜度)影響。看下面這張圖,它準確地描繪了泛化誤差與模型複雜度的關係,當模型太復
雜,模型就會過擬合,泛化能力就不夠,所以泛化誤差大。當模型太簡單,模型就會欠擬合,擬合能力就不夠,所以誤差也會大。只有當模型的複雜度剛剛好的才能夠達到泛化誤差最小的目標,我們追求的就是位於中間的平衡
點。
對於隨機森林而言,樹的深度越深,枝葉越多,模型越複雜
極限隨機樹是比隨機森林更隨機的森林,它具有更快的訓練速度,能進一步增強模型的泛化能力。
整合學習 隨機森林
隨機森林 random forest,簡稱rf 是bagging的乙個擴充套件變體。bagging在1996年由beriman提出,作為並行式整合學習方法中最著名的代表,利用自助取樣法。可取樣出t個含m個訓練樣本的取樣集,然後基於每個取樣集訓練出乙個基學習器,再將這些基學習器進行結合。這就是bagg...
整合學習 隨機森林
bagging就是bootstrapaggregating,自舉匯聚法,亦稱為裝袋法。與boosting的不同 個人理解 由於bagging的每個分類器是同階的,則有 e d e 1n i 1ne di e di 偏差.v ar v ar 1 n i 1nva r di 1 nvar di 方 差e...
整合學習 隨機森林
用多個模型來解決乙個問題,就是整合 怎麼樣得到乙個好的整合?需要個體盡可能的精確,而且它們的差異性,多樣性盡可能的大 按整合中個體的生成方式來說,可以分為兩大方法 一棵樹是決策樹,多棵樹是隨機森林,解決了決策樹泛化能力弱的缺點。因為決策樹是一棵樹,它是有乙個決策的可能性,如果是多棵樹,每棵樹都有乙個...