由於所給資料「髒」資料比較多,所以首先需要做大量的預處理,包括:
1.處理型別錯誤的資料。如『a25』列中資料應該為數值型卻混入了乙個『1900/3/10 0:00』時間資料。
2.處理時間資料的異常。
3.處理明顯的數值異常。
4.使用中位數填充缺失值
特徵工程是決定乙個比賽的關鍵,因此在特徵上我們做了大量處理,包括:
1.對連續型特徵進行離散化編碼。由於資料集中的資料報含大量異常值,對連續的特徵進行離散化編碼可以一定程度上降低異常值帶來的影響。離散化的方法包括:
(1)對於正態性的特徵,根據分位數離散化。
(2)對於有大量偏離中心的資料(異常值),使用眾數進行離散化編碼,即等於眾數,大於眾數,小於眾數。
(3)對於時間資料根據時段編碼,即分成早上、下午、晚間
(4)根據資料的分布進行離散化,如對id的離散化。
2.構造組合特徵。將基礎資料通過加減乘除進行兩兩組合,從中選擇重要性比較高或者有意義的特徵加入模型訓練。
3.離散特徵對target(『收率』)聚合求統計值。使用離散化後的特徵(『b14、b12』等)對收率進行聚合操作,然後求均值、最大值、最小值和數量。
4.rank排序特徵。對連續的特徵進行排序可以得到排序特徵,排序特徵對於異常資料具有較強的魯棒性,使得模型更加穩定,降低過擬合的風險。
5.dbscan聚類特徵。dbscan聚類的主要作用也是可以標識離群點。
6.業務相關特徵。主要是仿照收率的定義,使用b14去除以其他原料的和。
1.刪除常量特徵
2.刪除缺失值多,變化小的特徵
3.根據模型篩選
模型主要使用了lightgbm和xgboost,使用了stacking的融合方式。
COCO資料集解析 津南數字製造演算法挑戰賽
object instance 型別的標註格式 1,整體json檔案格式 比如上圖中的instances train2017.json instances val2017.json這兩個檔案就是這種格式。object instance這種格式的檔案從頭至尾按照順序分為以下段落 是的,你開啟這兩個檔案...
長亭科技響應「數字南網」建設,打造大灣區能源新生態
10 月29 30 日,由中國南方電網主辦的 數字南網助力粵港澳大灣區發展論壇 在廣州舉行,會議邀請了 公安 科研院所 能源產業上下游企業,以及來自航天科工集團 華為 長亭科技等眾多ict企業的嘉賓代表參加,圍繞網路安全 數位化轉型 工業網際網路等多個話題,聯合能源生態圈為粵港澳大灣區的發展獻智獻策...