優勝解決方案思路分析
自身提公升方向
題外話是次kaggle比賽英文名叫為"cornell birdcall identification",沒有官方中文名稱,大概是鳥聲識別競賽。這是本人第一次的kaggle獎金比賽(除了只抄baseline然後啥都沒幹的比賽 ),也是第一次接觸音訊識別的資料分析競賽。結果只是top15%,不算理想。因此,本文將記錄賽後覆盤優秀解決方案,分析優秀選手的思路和提分技巧,同時理解自身需要提公升的地方。
注意:學習筆記,不是賽後講解,所以詳細的比賽規則和資料集的型別等我就不一一詳細論述。
此部分為自己遇上的困難:
按照baseline訓練模型,並加入競賽要求的評判標準改善訓練結果,反而公開排行榜(public leaderboard,下稱lb)分數較低。
聚合不同模型時,結果比單一模型lb分數差
不能靈活修改模型和訓練過程,如:pytorch模型定義格式改為tensorflow的模型定義格式
4.自定義的音訊處理特徵工程效果不明顯
以下為綜合部分top10選手的notebook/kernel後的共同點,為本人的淺見,。
為什麼我先說後處理(post process)呢?是次比賽特別的地方在於**結果需要按場景作調整,如: 標籤為site3 和 標籤為site1和site2的音訊不能作相同的處理,也就是說一般訓練模型標籤音訊型別後,還要作後處理去改善**結果。
舉個例子,乙個比賽的baseline只是用了基於概率總和和鳥聲出現數作後處理,就已經把比賽結束前公開排行榜的分數從0.568提公升到0.585分,比賽結束後分數為0.596,接近top10%(銅牌)的水平。
由此可見,對於我這種小白,除了特徵工程,後處理也是日後競賽要注意的地方。
以下為已公開的優秀kernel裡的模型:
第一名:
『pannsdense121att』 (多個不同加權權重)
第二名:
『resnet50』,『efficientnet-b0』,『efficientnet-b0』,『efficientnet-b0』,『efficientnet-b0』,『resnet50』
第三名:
「resnest50_fast_1s1x64d」,「resnest101」
第六名:
「resnest」(多個不同加權權重),」efficientnet「(多個不同加權權重)
由此可見,即使使用相同的模型,但分開訓練及加權blending後就能提公升**能力。
在是次比賽的討論區中,官方表明別要爬取xeno-canto**的音訊資料。無可否認,能訓練的資料太少,而且private leaderboard公布後,許多選手的排名有變動,有的上公升了500多名,有的下降了70多名,可見結果的測試集分布與訓練集的資料分布不一樣。
日後有機會也會去了解爬蟲,爬蟲有用的資料集作訓練,比用gan生成的靠譜吧。
了解相同型別模型,但不同深度的應用場景和區別
了解如何自定義神經網路結構及每一層的原理
嘗試逐行理解以往相類似競賽的解決方案,並應用在日後競賽中
不要盲目過度訓練baseline,選手放出來的就留一手。
閱讀pytorch和tensorflow開發文件,熟悉整個資料探勘的流程。
推薦電視劇集"黑袍糾察隊",目前到第二季。
可能年紀大了,我厭倦了用魔法對抗魔法的劇情,裡面的除了社會現象的對映,大家去不妨從人物的心理角度去分析,也挺有意思。希望最後不是the boys主角團的普通人在極度憤怒的情況下,發現自己擁有同型別超能力,或者撿到蟲箭(狗頭)。
Kaggle競賽記錄
比賽 planet understanding the amazon from space這個比賽是乙個遙感影象識別,但是主辦方也提供了jpg,由於對遙感影象識別不熟悉,而且遙感影象資料太大不好處理,所以本次比賽使用的是jpg資料。這個比賽是乙個多標籤的分類問題,一共有17個類別,每張可以有乙個或者...
kaggle競賽入門整理
1 bike sharing demand kaggle 目的 根據日期 時間 天氣 溫度等特徵,自行車的租借量 處理 1 將日期 含年月日時分秒 提取出年,月,星期幾,以及小時 2 season,weather都是類別標記的,利用啞變數編碼 演算法模型選取 回歸問題 1 randomforestr...
kaggle三個入門競賽教程
1.titanic 泰坦尼克之災 中文教程 邏輯回歸應用之kaggle泰坦尼克之災 英文教程 an interactive data science tutorial 2.house prices advanced regression techniques 房價 中文教程 kaggle競賽 201...