pyhton 使用插值法填充缺失值

2021-10-02 01:31:35 字數 1639 閱讀 7410

# 라이브러리를 임포트합니다.

import pandas as pd

import numpy as np

​# 날짜를 만듭니다.

time_index = pd.date_range(

"01/01/2010"

, periods=

5, freq=

"m")

​# 設定索引

dataframe = pd.dataframe(index=time_index)

​# 建立帶確實資料的特徵

dataframe[

"sales"]=

[1.0

,2.0

,np.nan,np.nan,

5.0]

​dataframe

sales

2010-01

-311.02010-02

-282.02010-03

-31 nan

2010-04

-30 nan

2010-05

-315.0插值

# 對缺失資料進行插值

dataframe.interpolate(

)sales

2010-01

-311.02010-02

-282.02010-03

-313.02010-04

-304.02010-05

-315.0 向前填充

# 使用前面資料進行替換 向前填充

dataframe.ffill(

)sales

2010-01

-311.02010-02

-282.02010-03

-312.02010-04

-302.02010-05

-315.0向後填充

# 向後填充

dataframe.bfill(

)sales

2010-01

-311.02010-02

-282.02010-03

-315.02010-04

-305.02010-05

-315.0非線性的, 可以嘗試這種方法

# `method='quadratic'`二次插值。 如果資料是非線性的, 可以嘗試這種方法

dataframe.interpolate(method=

"quadratic"

)sales

2010-01

-311.000000

2010-02

-282.000000

2010-03

-313.059808

2010-04

-304.038069

2010-05

-315.000000

# 限制插數的個數

dataframe.interpolate(limit=

1, limit_direction=

"forward"

)sales

2010-01

-311.02010-02

-282.02010-03

-313.02010-04

-30 nan

2010-05

-315.0

python缺失值填充

對於特徵值缺失的一種常見的方法就是可以用固定值來填充。data 分數 data 分數 fillna 1 對於數值型的特徵,其缺失值也可以用未缺失資料的均值填充。data 分數 data 分數 fillna data 分數 mean 與均值類似,可以用未缺失資料的眾數來填充缺失值。data 分數 da...

pandas 填充缺失值

當資料中存在nan缺失值時,我們可以用其他數值替代nan,主要用到了dataframe.fillna 方法,下面我們來看看具體的用法 1.先來建立乙個帶有缺失值的dataframe 2.使用0替代缺失值 當然你可以用任意乙個數字代替nan df.fillna 0 3.用乙個字串代替缺失值 df.fi...

python DataFrame缺失值填充2

在做具體的分析工作的時候,訓練集中往往既存在分類變數又存在連續變數,且因各種各樣的原因,資料中存在大量的缺失,給後期的建模工作帶來麻煩,現在把自己打磨好的缺失值補充函式總結在此,為後續的使用提供方便。用均值填充其連續型的缺失值,用眾數填充分類變數的缺失值 defdatadealnan df data...