# 重新載入原始資料
titanic_df=pd.read_csv(
"titanic.csv"
)# 計算所有人年齡的均值
age_median1 = titanic_df.age.median(
)# 使用fillna填充缺失值,inplace=true表示在原資料titanic_df上直接進行修改
titanic_df.age.fillna(age_median1, inplace=
true
)# 檢視age列的統計值
titanic_df.age.describe(
)
titanic_df = pd.read_csv(
"titanic.csv"
)# 分組計算男女年齡的中位數, 得到乙個series資料,索引為***
age_median2 = titanic_df.groupby(
"***"
).age.median(
)# 設定索引為***
titanic_df.set_index(
"***"
,inplace=
true
)# 使用fillna填充缺失值,根據索引值填充
titanic_df[
"age"
].fillna(age_median2,inplace=
true
)# 重置索引,即取消***索引
titanic_df.reset_index(inplace=
true
)titanic_df[
"age"
].describe(
)
# 重新載入原始資料
titanic_df=pd.read_csv(
"titanic.csv"
)# 分組計算不同艙位男女年齡的中位數, 得到乙個series資料,索引為pclass,***
age_median3 = titanic_df.groupby(
['pclass'
,'***'])
.age.median(
)# 設定pclass, ***為索引, inplace=true表示在原資料titanic_df上直接進行修改
titanic_df.set_index(
['pclass'
,'***'
], inplace=
true
)# 使用fillna填充缺失值,根據索引值填充
titanic_df.age.fillna(age_median3, inplace=
true
)# 重置索引,即取消pclass,***索引
titanic_df.reset_index(inplace=
true
)# 檢視age列的統計值
titanic_df.age.describe(
)
pandas 填充缺失值
當資料中存在nan缺失值時,我們可以用其他數值替代nan,主要用到了dataframe.fillna 方法,下面我們來看看具體的用法 1.先來建立乙個帶有缺失值的dataframe 2.使用0替代缺失值 當然你可以用任意乙個數字代替nan df.fillna 0 3.用乙個字串代替缺失值 df.fi...
缺失值處理 缺失值填充方法總結
我們在進行模型訓練時,不可避免的會遇到某些特徵出現空值的情況,下面整理了幾種填充空值的方法 對於特徵值缺失的一種常見的方法就是可以用固定值來填充,例如0,9999,9999,例如下面對灰度分這個特徵缺失值全部填充為 99 data 灰度分 data 灰度分 fillna 99 對於數值型的特徵,其缺...
關於缺失值填充的方法
背景 很多資料不可避免的會遺失掉,或者採集的時候採集物件不願意透露,這就造成了很多nan not a number 的出現。這些nan會造成大部分模型執行出錯,所以對nan的處理很有必要。方法1 簡單粗暴地去掉 有如下dataframe,先用df.isnull sum 檢查下哪一列有多少nan im...