Pandas詳解十之Dropna濾除缺失資料

2021-08-17 04:15:42 字數 1913 閱讀 1509

約定:

import pandas as pd

import numpy as np

from numpy import nan as nan

pandas的設計目標之一就是使得處理缺失資料的任務更加輕鬆些。pandas使用nan作為缺失資料的標記。

使用dropna使得濾除缺失資料更加得心應手。

se1=pd.series([4

,nan,

8,nan,5]

)print

(se1)

se1.dropna(

)

**結果:

0    4.0

1 nan

2 8.0

3 nan

4 5.0

dtype: float64

0 4.0

2 8.0

4 5.0

dtype: float64

se1[se1.notnull(

)]

**結果:

0    4.0

2 8.0

4 5.0

dtype: float64

處理dataframe物件比較複雜,因為你可能需要丟棄所有的nan或部分nan。

df1=pd.dataframe([[

1,2,

3],[nan,nan,2]

,[nan,nan,nan],[

8,8,nan]])

df1

**結果:01

201.02.0

3.01

nannan

2.02

nannan

nan3

8.08.0

nan

df1.dropna(

)

**結果:01

201.02.0

3.0

df1.dropna(how=

'all'

)

**結果:01

201.02.0

3.01

nannan

2.03

8.08.0

nan

df1[3]

=nan

df1

**結果:01

2301.0

2.03.0

nan1

nannan

2.0nan

2nan

nannan

nan3

8.08.0

nannan

df1.dropna(axis=

1,how=

"all"

)

**結果:01

201.02.0

3.01

nannan

2.02

nannan

nan3

8.08.0

nan

df1.dropna(thresh=

1)

**結果:01

2301.0

2.03.0

nan1

nannan

2.0nan

38.0

8.0nan

nan

df1.dropna(thresh=

3)

**結果:01

2301.0

2.03.0

nan

謝謝大家的瀏覽,

希望我的努力能幫助到您,

共勉!

Pandas詳解四之MultiIndex物件

約定import pandas as pd from pandas import dataframe import numpy as npmultiindex表示多級索引,它是從index繼承過來的,其中多級標籤用元組物件來表示。m index1 pd.index a x1 a x2 b y1 b ...

Pandas詳解之排序和排名

約定 import pandas as pd import numpy as np12 排序和排名 根據條件對series物件或dataframe物件的值排序 sorting 和排名 ranking 是一種重要的內建運算。接下來為大家介紹如何使用pandas物件的 sort index sort v...

詳解Python學習之安裝pandas

一 python pip的安裝與使用 1 pip 是 python 包管理工具,該工具提供了對python 包的查詢 安裝 解除安裝的功能。目前如果你在 python.org 最新版本的安裝包,則是已經自帶了該工具。python 2.7.9 或 python 3.4 以上版本都自帶 pip 工具。p...