本週主要是在之前已經了解了許多相關模型和演算法的基礎之下,進一步學習不同的模型對比與效能評估。
邏輯回歸。其優點在於訓練速度較快,分類的時候,計算量僅僅只和特徵的數目相關;簡單易理解,模型的可解釋性非常好,從特徵的權重可以看到不同的特徵對最後結果的影響;適合二分類問題,不需要縮放輸入特徵;記憶體資源占用小,只需要儲存各個維度的特徵值。
決策樹模型。其優點在於簡單直觀,生成的決策樹可以視覺化展示;資料不需要預處理,不需要歸一化,不需要處理缺失資料;既可以處理離散值,也可以處理連續值。缺點在於決策樹演算法非常容易過擬合,導致泛化能力不強(可進行適當的剪枝),採用的是貪心演算法,容易得到區域性最優解。
整合模型整合方法(ensemble method)。通過組合多個學習器來完成學習任務,通過整合方法,可以將多個弱學習器組合成乙個強分類器,因此整合學習的泛化能力一般比單一分類器要好。整合方法主要包括bagging和boosting,bagging和boosting都是將已有的分類或回歸演算法通過一定方式組合起來,形成乙個更加強大的分類。兩種方法都是把若干個分類器集成為乙個分類器的方法,只是整合的方式不一樣,最終得到不一樣的效果。常見的基於baggin思想的整合模型有:隨機森林、基於boosting思想的整合模型有:adaboost、gbdt、xgboost、lightgbm等。
本週實踐學習與上週相比進步不大,主要將重心放優化資料集的方向上,但是與之前相比並沒有顯著提高。
本週得到的成績如圖所示。
綜合實訓週報一
本週的理論學習主要在於學習資料探勘相關的知識,由於本人之前並沒有上過 資料探勘導論 這門課程,導致有許多的知識點都並不了解。所以本週的主要任務就是將資料探勘大概流程,所需要用到的知識大致的過了一遍。實踐學習本週主要是將該練習賽的內容看了一遍,了解了比賽相關的學習資料。之後嘗試進行相應操作,主要是進行...
綜合實訓週報七
本次理論學習重點在於重新回顧並梳理了這次學習賽的流程,並總結了資料探勘的一般過程與常見手法。為之後進一步的學習打好基礎。本次賽題可分為賽題理解 資料分析 特徵工程 建模調參 模型融合等幾個過程。其中我把重點放在了特徵值的選擇上。如何對資料進行處理已經選擇合適的特徵值是比較重點在意的地方,其次是選擇合...
綜合實訓週報三
本週的理論學習主要學習了特徵選擇相關的知識。特徵選擇技術可以精簡掉無用的特徵,以降低最終模型的複雜性,它的最終目的是得到乙個簡約模型,在不降低 準確率或對 準確率影響不大的情況下提高計算速度。特徵選擇不是為了減少訓練時間 實際上,一些技術會增加總體訓練時間 而是為了減少模型評分時間。有如基於特徵間的...