資料探勘 週報七

2021-10-10 10:08:00 字數 413 閱讀 7287

重新熟悉一下資料探勘比賽的流程,以及每個階段的內容和常用方法:

(1)資料分析階段:資料集中特徵缺失情況;視覺化資料;變數分布情況。

方法:盡量利用函式,檢視各變數情況。

(2)特徵工程階段:資料預處理;異常值處理;資料分箱;特徵互動;特徵編碼;特徵選擇。

方法:缺失值過多,或者值都一樣的特徵,可以刪除;均方差和箱形圖;固定寬度分箱,分位數分箱,卡方分箱…

(3)建模和調參階段:模型選擇;調參。

方法:貪心調參;網格調參;貝葉斯調參。

(4)模型融合階段:模型融合。

方法:平均;投票;排序融合;log融合;stacking;blending。

熟悉python庫對資料探勘有用的函式庫:sklearn;numpy;pandas等

對期末大作業進行前期工作和資料處理。

資料探勘第七周週報

def lgb model x train,y train,x test lgb train,lgb test cv model lgb,x train,y train,x test,lgb return lgb train,lgb test def xgb model x train,y trai...

資料探勘實訓週報1

資料探勘實訓週報1 本階段工作內容 報名官網 二 配置本機環境。三 學習資料探勘涉及的主要python包。1.numpy 學習鏈結1 學習鏈結2 numpy提供了大量的庫函式和操作,主要用於對多維陣列執行計算,以及對影象的處理和其他數 算。基本操作 import numpy as np array ...

資料探勘第二週週報

由於我們得到的資料集是經過處理的比較規整的資料,所以上面的步驟可以簡單一下 1,匯入標準庫 importing the libraries import numpy as np import pandas as pd import matplotlib.pyplot as plt data trai...