頂級Kagglers的心得和技巧

2022-07-27 08:54:12 字數 1935 閱讀 5203

這是一篇筆記,課程來自coursera上的how to win a data science competition: learn from top kagglers本篇可以算是頂級kaggler大佬們,經過上百場比賽總結的心得和技巧。對準備開始參加資料探勘競賽的新人們極其有用,可以為你節省不少時間。

大部分內容我已經通過意會翻譯成中文了,限於小編我的視野,可能會出現些誤解,有問題望指正。

經驗之談,這將節省你大量時間。

當我們想參加比賽時,先確定你的目標和試著估計你的參與可以得到什麼。

你可能希望熟悉新的軟體工具包

你可能想要嘗試去獲取獎牌

這些目標中的每乙個都將影響您選擇參加的競賽。一旦熟悉了資料,開始寫下你以後想要嘗試的方法。什麼東西可以在這裡工作?你可能採取什麼方法。

完成後,去論壇閱讀帖子和話題高相關度的內容。強烈建議你參與論壇上的討論,您可以在論壇上獲得大量資訊並結識新朋友。

在初始管道準備好之後,你提出了一些想法,你可能想要開始改進你的解決方案

您可能希望將想法排序,將最重要和最有希望的首先實施。或者可以將它們歸類到各自主題中,例如特徵生成、驗證、度量優化等。

現在選擇乙個想法並實施它,嘗試在途中獲得一些簡介。特別是,試著理解為什麼某些東西有效或無效。從某種意義上講,分析工作的能力和在你嘗試自己的想法時得出的結論將使您走上正確的軌道,去揭示隱藏的資料模式和洩露。

我喜歡按照這些原則對所有引數進行排序:

注意:改變乙個引數可能影響整個管道

一開始就對資源做一些優化,將節省大量時間和計算資源。

預設情況下,pandas以64位陣列儲存資料,這在大多數情況下是不必要的。將所有內容向下轉換為32位將節省兩倍的記憶體

pandas支援即時的資料重新鏈結。因此,大多數資料集可以在沒有大量記憶體的情況下處理。例如您可以簡單的對訓練集進行拆分來驗證你的模型,而不是使用完整資料來做交叉驗證。

我通常從lightgbm開始,找到一些相當不錯的引數,並評估我的特徵的效能。

不要從svm、隨機森林、神經網路開始,你會浪費太多時間等待它們的訓練。只有當我對特徵工程感到滿意時,才會轉向去調整模型、取樣和stacking。

在某些方面,我將我的方法描述為「fast and dirty」,總是更好。

關注真正重要的事——資料。做資料探索,嘗試不同的特徵。谷歌特定領域的知識。您的**是次要的。建立不必要的類和個人框架可能只會讓事情更難以改變,這會導致浪費你的時間,所以要保持簡單合理。

不要跟蹤每個小變化

最後,如果您對給定的計算資源感到非常不舒服,不要掙扎數週,只需租一台更大的伺服器。

這種解決方案的主要目的不是建立乙個好的模型,而是從資料的最開始到我們將提交檔案寫成確定的格式,建立完整的除錯管道。我建議你從構建初始管道開始,通常你可以在kernel中找到組織者提供的baseline解決方案。我建議你仔細閱讀並自己寫。

另外,我建議你在其他方面遵循從簡單到複雜的方法。例如我更喜歡隨機森林而不是gbdt,至少隨機森林工作得非常快,幾乎不需要調整混合引數。

無論你多麼聰明,如果你的變數名起的不好,你肯定會對它感到困惑,這是遲早會發生的。

在訓練和測試階段使用相同的**非常重要。例如,為了保證它們以一致的方式訓練,應該使用相同的**準備和轉換特徵。這地方一般很難察覺到,所以最好小心點。我建議將可重用**移動到單獨的函式中,甚至是單獨的模組。

s = qq.sum(1)

ss = s[:,3]/qq.var()

sss = ss[0]

注意**質量

SEO面試心得 合格的SEOer必備五大技能

最近去了幾家企業面試,了解了一下企業現在對於seo的要求,現在市場上對於seoer的要求越來越高,我就把我這幾次面試當中遇到的共通點寫出來和大www.cppcns.com家分享一下,看看作為seoer的你,是否能夠滿足這些要求呢?1.整站的優化能程式設計客棧力 有些人說自己是從事seo的,但是真正從...

一位頂級銷售高手總結的「銷售心得」!

1 每天安排一小時 銷售,就像任何其它事情一樣,需要紀律的約束。銷售總被推遲,你總在等待乙個環境更有利的日子。其實,銷售的時機永遠都不會有最合適的時候。2 盡可能多打 在尋找客戶之前,永遠不要忘記花時間準確定義你的目標市場。這樣,在 中與之交流的,就會是市場中最有可能成為你客戶的人。如果你僅給最有可...

FileStorm ipfs的經濟模式和技術實現

獻哥 為什麼選擇跟威鏈進行深度合作呢?因為威鏈是乙個去中心化的交易所。去中心化的交易所和中心化的交易所有什麼樣的不同呢?就是去中心化的交易所裡所有的交易都是公開公正的。是在區塊鏈上看得到的。我們現在很多的交易所都是中心化的,包括我們filestorm上的其他兩個交易所 zg和抹茶。中心化交易所當然有...