kaggle比賽之悟

2022-05-18 19:17:39 字數 337 閱讀 4961

一、模型與特徵哪個重要?

參與sberbank russian housing market比賽,一開始使用sklearn的嶺回歸函式ridge(),殘差值一直是0.37左右,然後同樣的特徵又使用了xgboost,殘差值降到了0.34左右,提高的還是挺顯著的。

但是另外一些參賽選手,使用xgboost,殘差值可以降到0.31左右。

所以由此來看,xgboost模型確實厲害,效果很好。

通過比賽不斷調整特徵發現,特徵多了未必好,少了重要特徵更不行,只有留下最重要的特徵,模型的殘差值才會降到最低。所以,選擇合適的特徵最重要,還是應該將大量時間花費在特徵分析與處理上面。

Kaggle比賽入門指南

首先說,絕大部分的kaggle比賽是data mining dm 比賽 除少數是和discrete optimization還有computer vision cv 有關 最重要的是和machine learning ml 關係不大。這是很多人乙個誤區,往往希望在kaggle上學到很多ml的知識。k...

kaggle泰坦尼克比賽總結

泰坦尼克資料探勘比賽是kaggle上的新手入門賽,作為乙個基礎還沒打好的菜雞強行敲了一波 但是大部分還是跟著別人的思路,看著別人的 寫的。因此 就不放了,放了跟搬運沒啥區別。單純總結一下學習感悟吧。做資料探勘的第一步就是讀取資料之後進行分析和預處理。所要用到的python 庫有pandas,nump...

kaggle比賽相關準備內容(更新中)

1.需要一點ml演算法的基礎的。另外就是要會用程式語言和相應的第三方庫來實現演算法.常用的有 python以及對應的庫numpy scipy scikit learn 實現了ml的一些演算法,可以直接用 theano deeplearning的演算法包 r語言 weka 如果用到深度學習的演算法,c...