本週的理論學習主要在於學習資料探勘相關的知識,由於本人之前並沒有上過《資料探勘導論》這門課程,導致有許多的知識點都並不了解。所以本週的主要任務就是將資料探勘大概流程,所需要用到的知識大致的過了一遍。
實踐學習本週主要是將該練習賽的內容看了一遍,了解了比賽相關的學習資料。
之後嘗試進行相應操作,主要是進行資料預處理環節。由於題目中所給出的資料維度較多,需要進行對相應資料的篩選,剔除掉一些一些與因變數相關關係不強的自變數。如何選擇合適的自變數主要憑自己的直觀感受,以及上網查詢相應的資料或者是學習前輩的做法。
由於很久沒有使用python,自己也相應的感到有些生疏,在今後的學習中也要加強對相應的程式設計練習。
綜合實訓週報六
本週主要是在之前已經了解了許多相關模型和演算法的基礎之下,進一步學習不同的模型對比與效能評估。邏輯回歸。其優點在於訓練速度較快,分類的時候,計算量僅僅只和特徵的數目相關 簡單易理解,模型的可解釋性非常好,從特徵的權重可以看到不同的特徵對最後結果的影響 適合二分類問題,不需要縮放輸入特徵 記憶體資源占...
綜合實訓週報七
本次理論學習重點在於重新回顧並梳理了這次學習賽的流程,並總結了資料探勘的一般過程與常見手法。為之後進一步的學習打好基礎。本次賽題可分為賽題理解 資料分析 特徵工程 建模調參 模型融合等幾個過程。其中我把重點放在了特徵值的選擇上。如何對資料進行處理已經選擇合適的特徵值是比較重點在意的地方,其次是選擇合...
綜合實訓週報三
本週的理論學習主要學習了特徵選擇相關的知識。特徵選擇技術可以精簡掉無用的特徵,以降低最終模型的複雜性,它的最終目的是得到乙個簡約模型,在不降低 準確率或對 準確率影響不大的情況下提高計算速度。特徵選擇不是為了減少訓練時間 實際上,一些技術會增加總體訓練時間 而是為了減少模型評分時間。有如基於特徵間的...