實踐:
對部分有缺失值的特徵做了簡單的填充處理(數值類用均值替代,類別類用眾數替代),重點擊取部分與貸款數額、評級、收入與償還能力相關的屬性,使用knn模型進行訓練(因其較簡單,執行速度較快)。由於測試集不含標籤,我使用sklearn將原訓練集隨機劃分為訓練集、測試集,其中測試集佔比為0.3,即240000條,在測試集上準確率約為0.79,賽事評分如下:
理論:
閱讀了論壇中關於資料分析與特徵工程的內容(包括視覺化、空白值填充、異常值處理、特徵選擇等),下一步計畫對異常值進行處理,並利用相關性分析選擇適當的屬性集。同時嘗試縮小訓練樣本的規模,以更快地測試一些更複雜模型的效能。
高階實訓第五周週報
上週基本完成了資料預處理與特徵選擇的部分,並使用knn和決策樹這兩個簡單的模型達到了接近0.7的評分。本週主要從上次課提及的一些內容出發,學習一些更複雜的模型。隨機森林 隨機森林是bagging演算法的乙個特例,基分類器全部採用決策樹。它隨機選擇一些特徵並構建決策樹,通過投票等策略綜合隨機森林中所有...
高階實訓第六周週報
如上週週報所述,本週在之前的資料與處理和特徵工程的基礎上,用更複雜的模型代替knn和決策樹,並觀察分類效能的提公升。主要選用的是xgboost和隨機森林兩個模型,理論部分在上週的週報中有提及,本次主要說明實際調參情況及結果分析。使用xgboost模型獲得的最好結果如下 相比兩周前用決策樹做到的0.6...
高階實訓第八周週報
本週開始了新的ccf比賽,首先了解各個資料集的基本資訊,進行簡單的資料預處理和特徵工程操作,並直接使用上次最終效果最好的xgboost模型跑出乙個結果。首先,訓練集需要帶標籤的資料,使用資料集7中的14865個id作為鍵值與其他資料集做左連線 類似資料庫操作 僅包含標籤的id對應的條目保留。經觀察,...