kaggler 絕大多數都是用 python 和 r 這兩門語言的。
首先簡單介紹一些關於 kaggle 比賽的知識:
比賽通常持續 2 ~ 3 個月,每個隊伍每天可以提交的次數有限,通常為 5 次。
比賽結束前一周是乙個 deadline,在這之後不能再組隊,也不能再新加入比賽。所以想要參加比賽請務必在這一 deadline 之前有過至少一次有效的提交。
一般情況下在提交後會立刻得到得分的反饋。不同比賽會採取不同的評分基準,可以在分數欄最上方看到使用的評分方法。
反饋的分數是基於測試集的一部分計算的,剩下的另一部分會被用於計算最終的結果。所以最後排名會變動。
lb指的就是在 leaderboard 得到的分數,由上,有public lb和private lb之分。
自己做的 cross validation 得到的分數一般稱為cv或是local cv。一般來說cv的結果比lb要可靠。
新手可以從比賽的forum和scripts中找到許多有用的經驗和洞見。不要吝嗇提問,kaggler 都很熱情。
kaggle比賽相關準備內容(更新中)
1.需要一點ml演算法的基礎的。另外就是要會用程式語言和相應的第三方庫來實現演算法.常用的有 python以及對應的庫numpy scipy scikit learn 實現了ml的一些演算法,可以直接用 theano deeplearning的演算法包 r語言 weka 如果用到深度學習的演算法,c...
kaggle競賽中關於預處理的知識
已知一批資料,希望利用這些資料做 或分類,應該從 開始入手?直接把資料送給某個模型做訓練嗎?no 下面給出了一些需要在訓練之前考慮的事情 三種常用的方法 直接用均值填充 分析一下屬性的含義,做針對性的轉換 定義乙個新的二值屬性,表示這一項是否缺失方差較低的特徵帶來的資訊量不大,可以考慮利用cv判斷其...
mysql相關知識 MySQL相關知識
字串拼接 select from tablename where mydata like concat curdate limit 3 這裡concat是字串拼接,concat mys q l mysql 顯示日期不帶時間的函式,如 2015 05 14 curdate 是日期不算時間 2015 0...