模型融合作為kaggle等比賽的提分方法,你不知道可就落伍了,對於網上的大部分講解個人看法是把乙個簡單的問題說的複雜了,反而不好理解,所以本文將通過簡短的幾句話講述一下stacking原理,文章最後附上kaggle對stacking的乙個案例,這樣你就會完全掌握了,好的,下面開始
這裡假設你的訓練集有10000條,測試集有2500條,並且基學習器有10個(這個是你自己設定的),5折交叉驗證,每一折8000訓練集,2000驗證集
基學習器1
第一折:基學習器1對8000訓練集進行訓練模型,對2000驗證集進行驗證,得到2000行1列的結果a1;對2500測試集進行訓練得到2500行1列的結果b1.
第二折:基學習器1對8000訓練集進行訓練模型,對2000驗證集進行驗證,得到2000行1列的結果a2;對2500測試集進行訓練得到2500行1列的結果b2…
第三折:基學習器1對8000訓練集進行訓練模型,對2000驗證集進行驗證,得到2000行1列的結果a3;對2500測試集進行訓練得到2500行1列的結果b3…
第四折:基學習器1對8000訓練集進行訓練模型,對2000驗證集進行驗證,得到2000行1列的結果a4;對2500測試集進行訓練得到2500行1列的結果b4.
第五折:基學習器1對8000訓練集進行訓練模型,對2000驗證集進行驗證,得到2000行1列的結果a5;對2500測試集進行訓練得到2500行1列的結果b5.
注意:每一折的訓練集和驗證集都發生了變化,所以最後得到的a1,…,a5是不相同的。
下面是關鍵
對5折後的驗證集結果a1,…,a5按列拼接,得到10000行1列的結果 ,這裡記為a1;對5個測試集結果求均值得到2500行1列的結果b1
以上是乙個基分類器的結果,假如有十個基分類器,最後的驗證集的結果就是a1,a2,a3,…,a10,測試集結果就是b1,b2,b3,…,b10。
畫重點:
由上面得到的結果得到新的訓練集,新的測試集,如下表所示
a1a2
…a10y…
…………
a1,a2,a3,…,a10為新的資料集的特徵(10000x10的資料),標籤y還是原資料的標籤,
測試集變為
b1b2
…b10y…
………?
當然這裡的y是你接下來要**的
幾句話就能讓你明白 ACL 訪問控制列表(二)
一 擴充套件方問控制列表的配置 1 建立acl router config access list access list number protocol operator operan access list number 訪問控制列表錶號,100 199之間 permit deny 如果測試條件...
4句話讓你明白什麼是AI
小牛黑科 2018 12 25 17 38 12 圖 文 心情很好的王炸 第一句 ai顧名思義就是英文單詞artificial intelligenc,即人工智慧。當然,現在的主流搜尋引擎以及翻譯技術也都在嘗試 利用人工智慧來為廣大提供更為精準的搜尋服務。至於以實物存在的人工智慧,當屬現在物流倉庫的...
憑幾句話的方案,你什麼也做不了
最近看到乙個故事,說某人通過聊天軟體應聘,面試者問幾百萬條的記錄怎麼辦。應聘者應該是做過的,簡單說了幾句。結果沒有通過。有人說,拿到方案了,自然就不需要人了。其實這想法非常可笑。如果說拿到方案就不需要人,咱就說軟體,任何乙個問題 專案方案多的很,文字加圖要多詳細有多詳細,你看了有什麼用?不好意思,一...