加入 Kaggle 大資料競賽,總共分幾步?

2021-08-29 23:32:36 字數 2786 閱讀 4451

原文作者 jason brownlee,機器學習專家,開發者,作家,企業家,曾在美國國防部門、初創企業和極端天氣預報機構從事機器學習的相關開發工作多年。目前為了幫助機器學習領域更多的開發者,開設了乙個名為 machine learning mastery 的**,提供各種入門和高階的機器學習教程。

● 問題的定義明確,直接提供了可用的資料庫;

● 由於行業裡充斥著各種五花八門的排行榜,因此很難找到其他更客觀的機器學習測試平台;

● 通常每場比賽都會有許多討論和分享,參賽者可以從中學習,並參與分享;

● 通過解決現實生活中的某個特定資料問題,參賽者可以充分展示自己;

● 這是乙個完全靠技術說話的平台,只要你能解決問題,就能贏得尊重,跟學歷和學位無關。

這裡,我總結了入門 kaggle 競賽的四個簡單步驟:

1. 選定乙個平台

2. 基於標準的資料庫練習

3. 練習舊的 kaggle 題目

4. 在 kaggle 上比賽

就像這世上的許多事,簡單地寫出這四個步驟當然很容易,但實現起來很難。實現它們需要付出非凡的時間和精力,無疑會是一項艱苦的工作。當然,天道酬勤,只要你付出了努力,並且有條不紊地堅持下去,那麼總有一天你將成為一名世界級的機器學習從業者。

另外,對於那些已經具備一些開發經驗的讀者,你可以直接跳到第四步開始比賽。但對於本文的主要讀者,那些入門級的使用者,我還是建議從第一步開始。

下面我們具體看看這四個步驟。

同樣,擺在開發者面前的可選平台也很多,可能最終你會發現初期的選擇糾結是沒有必要的,因為每個開發者實際上都同時使用許多平台,但剛開始你必須選定乙個。

● 業界對基於 python 的機器學習需求正在增長;

● 不像 r 語言,python 是乙個全功能的程式語言;

● python 的生態系統已經基本成熟,可選的工具包非常豐富,例如 sklearn,pandas,statsmodels,xgboost 等;

● python 具有一些非常好的深度學習框架:theano,tensorflow,keras 等。

總之,你必須先選定乙個平台,並開始學習如何使用它。

深入閱讀:

● python machine learning

選定了平台之後,下一步就是基於真實的資料庫展開實踐。

這裡我推薦通過 uci machine learning repository (uci 機器學習資源庫)來解決一些標準的機器學習問題。

uci 官網:

● 將資料集組織成乙個佇列,並且保留測試集,將測試集分成乙個公共和私人的排行榜;

● 概括每乙個資料集的處理過程,堅持下去,並不斷修正這一過程,直到通過它你可以很容易地得到針對每乙個小型資料集的頂級結果;

● 對每乙個資料集規定時間上線,例如必須在幾個小時內完成;

● 充分利用相關資料集的文件資料,以更好地定義既定問題和解釋特徵。

● 學習如何充分利用好每乙個工具、演算法和資料集。

總之,你需要認真對待每乙個資料集,通過處理各種不同的資料集積累經驗,並將這些經驗應用到處理新的資料集中。

深入閱讀:

經過以上兩步,現在你已經清楚地認識了自己的工具,並懂得如何去使用它們,是時候練習一些舊的 kaggle 題目了。

你可以訪問那些舊的 kaggle 比賽的資料集,並針對這些資料發布自己的解決方案,然後在公共和私人的榜單上進行評估。

● 盡量選擇型別各不相同的問題,迫使自己學習和應用新的、與以往不同的技術;

● 研究論壇裡的帖子、頂級選手的部落格、github 倉庫和所有其他的相關資料,學習別人的解決方案;

● 以進入公共或私人排行榜的前 10% 為奮鬥目標;

● 針對同乙個資料集,嘗試多個不同的獲獎者的解決方案。

總之,你需要認真學習以往的優秀參賽者的解決方案和工具,並吸收他們的優點,進一步積累經驗,將這些經驗應用到新資料集的處理中。

深入閱讀:

● machine learning is kaggle competitions

● discover the methodology and mindset of a kaggle master: an interview with diogo ferreira

現在,你已經可以正式參加 kaggle 比賽了。

下面是一些參賽的注意事項:

● 一次只處理乙個問題,直到被卡住;

● 以進入每個問題的私人排行榜的前 25% 或前 10% 為奮鬥目標;

● 嘗試在論壇上自由分享,這會引發良性的互動和協作;

● 最大限度地縮短思考/閱讀乙個好主意和將之付諸實踐的時間(例如幾分鐘之內);

最後需要強調的是,kaggle 雖然的確是一場比賽,但我們應該抱著學習和分享的態度去參賽。

深入閱讀:

● how to kick ass in competitive machine learning

● master kaggle by competing consistently

天池大資料競賽 UI特徵統計

明明是移動推薦演算法,非要搞成二分類問題。機器學習什麼的不太懂,什麼訓練集測試集驗證集,什麼交叉驗證,什麼lr svm,什麼weka之類的,不管了。大神學姐說主要還是在找特徵,模型什麼的不是很重要。我這邊著的主要是u i關係的一些比率特徵 1.購買該品牌次數 總購買次數 2.使用者對a的行為次數 使...

競賽拙見 2 高精度運算 大資料加法

在競賽題中,求兩位數的和看似非常簡單,但是當我們興致勃勃地把自己不經過大腦思考就寫出的 提交上去的時候竟發現乙個測試點都沒有通過。問題到底出現在 呢?這就涉及到了高精度運算的問題。通常我們知道,類似int double這樣的資料型別都有各自的精度範圍,但是當我們計算乙個特別大的資料的時候往往都會超出...

第一次天池大資料,廣東客流競賽

排名 168,成績72.93 第一名82.9 訓練資料 1 得到資料後匯入資料庫 2 統計資料中各個時段和各個線路的count數目 資料由一千萬變為一萬以內 3 統計6 21時的資料 資料條目再次降到5000左右 天氣資料 4 表中的年月日進行字元規整 替換成同一模式 為了和訓練資料表結合 5 天氣...