高階實訓第八周週報

2021-10-10 14:39:11 字數 1128 閱讀 6591

本週開始了新的ccf比賽,首先了解各個資料集的基本資訊,進行簡單的資料預處理和特徵工程操作,並直接使用上次最終效果最好的xgboost模型跑出乙個結果。

首先,訓練集需要帶標籤的資料,使用資料集7中的14865個id作為鍵值與其他資料集做左連線(類似資料庫操作),僅包含標籤的id對應的條目保留。經觀察,僅資料集1資料特徵較全面且缺失少,因此目前暫時只用到資料集1,訓練集為資料集7與資料集1以id為key左連線的結果(使用panda中的merge函式),測試集為資料集8與資料集1以id為key左連線的結果,其基本資訊如下:

資料預處理和特徵工程的方法與之前類似,部分特徵缺失過多,予以捨棄(如protype,forreccap等)。部分類別類特徵難為位址或字串,暫時難以挖掘出有效資訊供樹模型處理(如dom,opscope等)。對缺失的資料用平均值做填充,將類別類特徵iudustryphy對映1到19的數值(特徵編碼),便於模型處理。預處理並篩選後的特徵集如下:

features = ['oplocdistrict','industryphy','industryco','enttype','state','orgid','jobid','adbusign','townsign','regtype','enttypegb','regcap']

xgboost模型調參如下:

model = xgb.xgbclassifier(max_depth=5, min_child_weight=2, learning_rate=0.05, n_estimators=500, subsumple=0.8, colsample_bytree=0.8)

最終結果如下:

該結果還有較大提公升空間。下週主要有兩個方向:

一、嘗試利用其他資料集,並嘗試部分暫未用到的特徵在預處理後是否能加入特徵集

二、安裝pytorch,嘗試之前沒有使用過的神經網路模型,並與決策樹模型做對比,必要時可嘗試綜合兩者的結果

高階實訓第二週週報

實踐 對部分有缺失值的特徵做了簡單的填充處理 數值類用均值替代,類別類用眾數替代 重點擊取部分與貸款數額 評級 收入與償還能力相關的屬性,使用knn模型進行訓練 因其較簡單,執行速度較快 由於測試集不含標籤,我使用sklearn將原訓練集隨機劃分為訓練集 測試集,其中測試集佔比為0.3,即24000...

高階實訓第五周週報

上週基本完成了資料預處理與特徵選擇的部分,並使用knn和決策樹這兩個簡單的模型達到了接近0.7的評分。本週主要從上次課提及的一些內容出發,學習一些更複雜的模型。隨機森林 隨機森林是bagging演算法的乙個特例,基分類器全部採用決策樹。它隨機選擇一些特徵並構建決策樹,通過投票等策略綜合隨機森林中所有...

高階實訓第六周週報

如上週週報所述,本週在之前的資料與處理和特徵工程的基礎上,用更複雜的模型代替knn和決策樹,並觀察分類效能的提公升。主要選用的是xgboost和隨機森林兩個模型,理論部分在上週的週報中有提及,本次主要說明實際調參情況及結果分析。使用xgboost模型獲得的最好結果如下 相比兩周前用決策樹做到的0.6...