高階實訓第五周週報

2021-10-25 07:08:11 字數 664 閱讀 2954

上週基本完成了資料預處理與特徵選擇的部分,並使用knn和決策樹這兩個簡單的模型達到了接近0.7的評分。本週主要從上次課提及的一些內容出發,學習一些更複雜的模型。

隨機森林

隨機森林是bagging演算法的乙個特例,基分類器全部採用決策樹。它隨機選擇一些特徵並構建決策樹,通過投票等策略綜合隨機森林中所有樹對樣本的**結果,從而得到隨機森林的**結果。這是一種通過引入隨機性並綜合大量結果來降低方差,緩解單一決策樹的過擬合問題的策略。

xgboost

xgboost是gbdt(梯度提公升決策樹)的一種實現。gbdt演算法使用多顆決策樹,綜合所有樹的結論,大大緩解了單一決策樹易出現的過擬合問題。gbdt中,每棵樹學習的是之前所有樹的殘差(即**值與真實值的偏差),這一思想與傳統的boosting類似,使模型能夠更好地針對錯誤進行學習。xgboost作為gbdt的一種實現,加入了一些優化,比如加入l2正則項和葉子節點權重,有利於降低模型方差,同時通過把含缺失值的樣本劃分到左、右子樹並比較,可實現自動處理缺失特徵。

兩種模型都用到了多棵決策樹,相比之前的單一決策樹,可有效降低方差,緩解過擬合問題。此外,xgboost還通過對殘差的學習降低偏差,提公升對錯誤樣本的分類效能。在下週的實踐中,我計畫找到相應的庫,並分別使用這兩種模型,觀察效能的提公升,爭取將score提高到0.7以上。

高階實訓第二週週報

實踐 對部分有缺失值的特徵做了簡單的填充處理 數值類用均值替代,類別類用眾數替代 重點擊取部分與貸款數額 評級 收入與償還能力相關的屬性,使用knn模型進行訓練 因其較簡單,執行速度較快 由於測試集不含標籤,我使用sklearn將原訓練集隨機劃分為訓練集 測試集,其中測試集佔比為0.3,即24000...

高階實訓第六周週報

如上週週報所述,本週在之前的資料與處理和特徵工程的基礎上,用更複雜的模型代替knn和決策樹,並觀察分類效能的提公升。主要選用的是xgboost和隨機森林兩個模型,理論部分在上週的週報中有提及,本次主要說明實際調參情況及結果分析。使用xgboost模型獲得的最好結果如下 相比兩周前用決策樹做到的0.6...

高階實訓第八周週報

本週開始了新的ccf比賽,首先了解各個資料集的基本資訊,進行簡單的資料預處理和特徵工程操作,並直接使用上次最終效果最好的xgboost模型跑出乙個結果。首先,訓練集需要帶標籤的資料,使用資料集7中的14865個id作為鍵值與其他資料集做左連線 類似資料庫操作 僅包含標籤的id對應的條目保留。經觀察,...