資料探勘 模型融合

2021-10-04 18:17:16 字數 873 閱讀 3648

在模型調參結束後,我我們就可以進行模型融合了

這是最後也是乙個相當重要的環節,方式大概有有以下幾種

模型融合是比賽後期乙個重要的環節,大體來說有如下的型別方式。

簡單加權融合:

stacking/blending:

boosting/bagging(在xgboost,adaboost,gbdt中已經用到):

什麼是 stacking

簡單來說 stacking 就是當用初始訓練資料學習出若干個基學習器後,將這幾個學習器的**結果作為新的訓練集,來學習乙個新的學習器。

具體可以參看西瓜書。

簡單加權平均,結果直接融合

對於分類,同樣的可以使用融合方法,比如簡單投票。voting即投票機制,分為軟投票和硬投票兩種,其原理採用少數服從多數的思想。

stacking是一種分層模型整合框架。

以兩層為例,第一層由多個基學習器組成,其輸入為原始訓練集,第二層的模型則是以第一層基學習器的輸出作為訓練集進行再訓練,從而得到完整的stacking模型, stacking兩層模型都使用了全部的訓練資料。

blending,其實和stacking是一種類似的多層模型融合的形式

其主要思路是把原始的訓練集先分成兩部分,比如70%的資料作為新的訓練集,剩下30%的資料作為測試集。

在第一層,我們在這70%的資料上訓練多個模型,然後去**那30%資料的label,同時也**test集的label。

在第二層,我們就直接用這30%資料在第一層**的結果做為新特徵繼續訓練,然後用test集第一層**的label做特徵,用第二層訓練的模型做進一步**

分類的stacking融合(利用mlxtend):

資料探勘 模型融合

模型融合是比賽後期乙個重要的環節,大體來說有如下的型別方式。簡單加權融合 stacking blending boosting bagging 在xgboost,adaboost,gbdt中已經用到 1 平均融合 對於回歸問題,乙個簡單直接的思路是取平均。也可以採用加權平均,而權值可以用排序的方法確...

資料探勘實戰(六) 模型融合

如圖,上半部分是用乙個基礎模型進行5折交叉驗證。拿出四折作為training data,另外一折作為testing data。每一次的交叉驗證包含兩個過程,1.基於training data訓練模型 2.基於training data訓練生成的模型對testing data進行 在整個第一次的交叉驗...

零基礎入門資料探勘 Task5 模型融合

先產生一組個體學習器,然後利用某種策略將它們結合起來,加強模型效果。周志華和李航老師的書中都證明隨著個體學習器數目的增大,整合的錯誤率將呈指數級下降,最終趨向於零。因此,模型融合被廣泛應用。簡單來說就是通過對一組的基分類器以某種方式進行組合,以提公升模型整體效能的方法。多模型投票 votingcla...