缺失值填充 關於年齡特徵

2021-08-30 21:46:41 字數 442 閱讀 5611

缺失值填充這回事我們第一能想到的就是使用0進行填充,但是如果是年齡的話直接使用0進行填充就有點不太靠譜了,那麼怎麼辦呢?

如果整個樣本群體的年齡方差不大,比如整個樣本**於初中生,年齡在13-15歲之間,那麼直接使用全樣本的均值填充即可。

但是真實情況往往不會這麼美好,哪怕是初中生也會有急著早讀書的學生和可憐巴巴的留級生,再加上各個地區的入學年齡並不統一,那麼年齡區間一下子就會被拉大到11-16,這時候全體均值就不是那麼管用了。

為了消除地區的影響,我們可以分地區進行均值計算,然後使用與樣本同地區的均值進行填充。在入學的場景中我們需要考慮的地區粒度是城市,那麼如果是生活習慣類的場景,我們可以考慮省份,又或者是大區(華東、華南之類的)。

同理在其他的分析場景中,我們還可以考慮分性別、分職業等等…

還可以考慮使用多個因素疊加分類之後再計算均值進行填充。

條條大路通羅馬,管用就行。

python 特徵缺失值填充

該部落格總結比較詳細,感謝博主。我們在進行模型訓練時,不可避免的會遇到某些特徵出現空值的情況,下面整理了幾種填充空值的方法 對於特徵值缺失的一種常見的方法就是可以用固定值來填充,例如0,9999,9999,例如下面對灰度分這個特徵缺失值全部填充為 99 data 灰度分 data 灰度分 filln...

關於缺失值填充的方法

背景 很多資料不可避免的會遺失掉,或者採集的時候採集物件不願意透露,這就造成了很多nan not a number 的出現。這些nan會造成大部分模型執行出錯,所以對nan的處理很有必要。方法1 簡單粗暴地去掉 有如下dataframe,先用df.isnull sum 檢查下哪一列有多少nan im...

python缺失值填充

對於特徵值缺失的一種常見的方法就是可以用固定值來填充。data 分數 data 分數 fillna 1 對於數值型的特徵,其缺失值也可以用未缺失資料的均值填充。data 分數 data 分數 fillna data 分數 mean 與均值類似,可以用未缺失資料的眾數來填充缺失值。data 分數 da...