假設隨機問很多人同乙個問題,然後將許多份回答整合起來,通常情況下會發現這個合併的答案比乙個專家的答案還要好。這就如同俗語所說「三個臭皮匠,頂個諸葛亮」,也好比對某個問題進行民主投票一樣。機器學習中整合學習的思想與之類似。
在分類問題中,傳統機器學習方法是在乙個由各種可能的函式構成的假設空間中尋找乙個最接近實際分類函式的分類器 ,單個的分類器模型到如今已經發展了不少,有的甚至成為了經典分類演算法,如決策樹、支援向量機以及樸素貝葉斯等。
整合學習的思路是:在對新樣本進行分類時,把若干個單個分類器整合起來,通過對這些單個分類器的**結果進行某種組合來決定最終的分類,從而取得比任意乙個單個分類器更好的效能。如果把單個分類器比作乙個決策者的話,整合學習的方法相當於多個決策者共同進行決策。
經典的分類器———隨機森林,就是在決策樹的基礎上通過整合學習衍生而來,並且是整合方法bagging的代表模型。著名的整合方法包括 bagging, boosting, stacking 和其他一些演算法。需要注意的是:並不是任意的整合都是有效的,還要考慮到中和效應,即一些分類效能差的分類器會拉低整體的分類能力。
示例如下:
例中將隨機森林、支援向量機以及邏輯回歸模型視為三個單個分類器,並將三者集成為乙個 voting_clf 整合分類器,結果表明整合分類器的分類表現優於構成它的兩個單個分類器,但劣於邏輯回歸,所以選擇恰當的整合手段也是保證整合方法奏效的關鍵。
本文只是初步感受整合學習的流程,雖然**簡單,但也是運用整合方法的案例(儘管失敗了)。後面將詳細介紹前文提到的三種主流整合演算法bagging, boosting, stacking。
互動整合營銷 初識網路整合營銷
整合營銷傳播,簡稱imc,是對傳統廣告和營銷傳播理論的革命性創新。它是一種戰略管理工具,需要企業對傳播活動進行投資,並有相應的投資回報率 整合營銷是對營銷傳播的一種規劃,一種對各種營銷工具和手段的系統化結合。在網際網路時代大規模侵襲,受眾不只是被動的資訊接收者,而是積極搜尋者,甚至是傳播者。整合營銷...
初識機器學習
學機器學習已經大半年了,現在才發現自己是初識機器學習。一開始學機器學習,真的以為它是個機器,學會了就可以拿來用,或是拿來改進。現在才明白,學機器學習的方法不僅要弄明白理論基礎和演算法思路,還要明白演算法的脈絡,它的每一步都是為什麼這麼做,掌握演算法背後的真正的思想,才能融會貫通,針對不同的問題提出不...
初識機器學習
機器學習 資料 資料 做為輸入 輸出 找到最合適的演算法公式 機器學習的分類 有批量 batch 數量的情況下可應用 監督式學習 知道輸入與輸出 半監督式學習是 知道輸入與部分輸出 無監督式學習 不知道輸出 對應著聚類 clustering 對於機器學習的輸出 1.有明確的分類 是 否 並且是用一條...