# 라이브러리를 임포트합니다.
import pandas as pd
import numpy as np
# 날짜를 만듭니다.
time_index = pd.date_range(
"01/01/2010"
, periods=
5, freq=
"m")
# 設定索引
dataframe = pd.dataframe(index=time_index)
# 建立帶確實資料的特徵
dataframe[
"sales"]=
[1.0
,2.0
,np.nan,np.nan,
5.0]
dataframe
sales
2010-01
-311.02010-02
-282.02010-03
-31 nan
2010-04
-30 nan
2010-05
-315.0插值
# 對缺失資料進行插值
dataframe.interpolate(
)sales
2010-01
-311.02010-02
-282.02010-03
-313.02010-04
-304.02010-05
-315.0 向前填充
# 使用前面資料進行替換 向前填充
dataframe.ffill(
)sales
2010-01
-311.02010-02
-282.02010-03
-312.02010-04
-302.02010-05
-315.0向後填充
# 向後填充
dataframe.bfill(
)sales
2010-01
-311.02010-02
-282.02010-03
-315.02010-04
-305.02010-05
-315.0非線性的, 可以嘗試這種方法
# `method='quadratic'`二次插值。 如果資料是非線性的, 可以嘗試這種方法
dataframe.interpolate(method=
"quadratic"
)sales
2010-01
-311.000000
2010-02
-282.000000
2010-03
-313.059808
2010-04
-304.038069
2010-05
-315.000000
# 限制插數的個數
dataframe.interpolate(limit=
1, limit_direction=
"forward"
)sales
2010-01
-311.02010-02
-282.02010-03
-313.02010-04
-30 nan
2010-05
-315.0
python缺失值填充
對於特徵值缺失的一種常見的方法就是可以用固定值來填充。data 分數 data 分數 fillna 1 對於數值型的特徵,其缺失值也可以用未缺失資料的均值填充。data 分數 data 分數 fillna data 分數 mean 與均值類似,可以用未缺失資料的眾數來填充缺失值。data 分數 da...
pandas 填充缺失值
當資料中存在nan缺失值時,我們可以用其他數值替代nan,主要用到了dataframe.fillna 方法,下面我們來看看具體的用法 1.先來建立乙個帶有缺失值的dataframe 2.使用0替代缺失值 當然你可以用任意乙個數字代替nan df.fillna 0 3.用乙個字串代替缺失值 df.fi...
python DataFrame缺失值填充2
在做具體的分析工作的時候,訓練集中往往既存在分類變數又存在連續變數,且因各種各樣的原因,資料中存在大量的缺失,給後期的建模工作帶來麻煩,現在把自己打磨好的缺失值補充函式總結在此,為後續的使用提供方便。用均值填充其連續型的缺失值,用眾數填充分類變數的缺失值 defdatadealnan df data...