綜合實訓週報三

2021-10-24 16:48:30 字數 540 閱讀 2830

本週的理論學習主要學習了特徵選擇相關的知識。

特徵選擇技術可以精簡掉無用的特徵,以降低最終模型的複雜性,它的最終目的是得到乙個簡約模型,在不降低**準確率或對**準確率影響不大的情況下提高計算速度。特徵選擇不是為了減少訓練時間(實際上,一些技術會增加總體訓練時間),而是為了減少模型評分時間。

有如基於特徵間的關係進行篩選,如方差選擇法。

方差選擇法中,先要計算各個特徵的方差,然後根據設定的閾值,選擇方差大於閾值的特徵。

from sklearn.feature_selection import variancethreshold

#其中引數threshold為方差的閾值

variancethreshold(threshold=3).fit_transform(train,target_train)

等等。本週主要進行了進一步的資料分析和資料處理。對特徵值進行了簡單的處理。對原始資料不怎麼處理後跑了一遍,結果如圖。

綜合實訓週報一

本週的理論學習主要在於學習資料探勘相關的知識,由於本人之前並沒有上過 資料探勘導論 這門課程,導致有許多的知識點都並不了解。所以本週的主要任務就是將資料探勘大概流程,所需要用到的知識大致的過了一遍。實踐學習本週主要是將該練習賽的內容看了一遍,了解了比賽相關的學習資料。之後嘗試進行相應操作,主要是進行...

綜合實訓週報六

本週主要是在之前已經了解了許多相關模型和演算法的基礎之下,進一步學習不同的模型對比與效能評估。邏輯回歸。其優點在於訓練速度較快,分類的時候,計算量僅僅只和特徵的數目相關 簡單易理解,模型的可解釋性非常好,從特徵的權重可以看到不同的特徵對最後結果的影響 適合二分類問題,不需要縮放輸入特徵 記憶體資源占...

綜合實訓週報七

本次理論學習重點在於重新回顧並梳理了這次學習賽的流程,並總結了資料探勘的一般過程與常見手法。為之後進一步的學習打好基礎。本次賽題可分為賽題理解 資料分析 特徵工程 建模調參 模型融合等幾個過程。其中我把重點放在了特徵值的選擇上。如何對資料進行處理已經選擇合適的特徵值是比較重點在意的地方,其次是選擇合...