資料探勘 筆記 閱讀之資料探勘比賽基本流程

2021-08-03 00:24:41 字數 857 閱讀 3516

【乾貨】kaggle 資料探勘比賽經驗分享

資料分析,資料清洗,特徵工程,模型訓練和驗證等四個大的模組

離散值

目標變數的分布

離散值

某個id上面不平衡

變數之間的分布和相關度,發現高相關和共線性的特徵

預處理

- 特徵缺失值的處理

- 連續值:

- 偏正態分佈用均值代替,保持資料均值

- 長尾分布用中值代替,避免受outlier影響

- 離散

- 眾數代替

- 文字資料

。。。特徵決定了效果的上限。case by case

主要針對一些長尾分布的特徵,進行冪變換或對數變換,使得模型(lr or dnn)更好的優化。

樹模型(rf, gbdt) 對單調的函式變換不敏感。原因在於樹模型求解**點的時候只考慮排序分位點。

離散的類別特徵。常用labelencoder, onehotencoder

對於取值較多的類別特徵,onehotencoder會導致特徵矩陣巨大,影響效果:

- 統計取值在樣本中的頻率,取top n的取值做編碼,剩下的類別分到『其他類』,n作為超引數需要調優。

- 統計每個id特徵的一些統計量代替為特徵

- 參考word2vec,將每個類別特徵的取值對映到乙個連續的向量,對這個向量進行初始化,跟模型一起訓練。訓練結束後,可以同時得到每個id的embedding。具體的使用方式,可以參考 rossmann 銷量預估競賽第三名的獲獎方案,

對於 random forest 和 gbdt 等模型,如果類別特徵存在較多的取值,可以直接使用 labelencoder 後的結果作為特徵。

資料探勘比賽之「滑窗法」

作為參加資料比賽已經有8個月的一名新人,最近閱讀了幾位kaggle maser開源的 發現其中有一些有意思的內容,記錄一些對於這些問題的思考。一 問題描述 題目中涉及到嚴格的時間概念,例如 未來n天的流量 銷售等 未來n天內的使用者 物件對 使用者 商品等 的問題等,都可以利用滑窗法解決。諸如類似形...

資料探勘筆記

標籤 空格分隔 特徵提取 實習期間參加了ccf大資料比賽,總結期間用到的一些資料提取想法 alter變更有11種型別,將變更型別進行one hot encoding編碼,再統計每個型別的總量。統計時間區間內行為累積,比如統計某個企業 2,5,8,13,21,35 個月內的變更alter記錄數目 也稱...

資料探勘筆記

分類變數 分類變數可以分為有序和無序 無序 無程度之間的差別,如男女 有序 如小,中,大 分類 有序 定量變數.你清楚你的變數型別嗎?無序可以直接用皮爾遜 有序就用斯皮爾曼相關係數計算關係 斯皮爾曼等級相關 spearman s correlation coefficient for ranked ...