pandas常用操作整理

2021-10-10 13:40:54 字數 3790 閱讀 8896

10 isin函式做篩選

11、缺失值處理

使用map函式就可以實現把某一列的字元型別的值轉換為數字。

data[

class

]= data[

class].

map首先定義乙個字典,然後使用map方法就可以把某一列的字元型別的值轉換為數字。

參考:使用pandas把某一列的字元值轉換為數字的例項

使用value_counts函式即可。**:

import pandas as pd

import numpy as np

df = pd.dataframe(

)print

(df)

df['key2'

].value_counts(

)

結果:

參考:【pandas】統計某個值的出現次數

使用unique()函式即可,**:

import pandas as pd

import numpy as np

df = pd.dataframe(

)print

(df)

print

(df[

'key1'

].unique(

))

結果:

key1 key2     data1     data2

0 a one -

0.066452

1.850358

1 a two 0.861040

-2.977021

2 b one 0.422862

1.871435

3 b two -

0.060591

-2.044589

4 a one 0.779476

-0.390922

['a'

'b']

多個條件

train_[

(train_[

'id']==

0)&(train_[

'queue_id']==2)]

單個條件

train_[train_[

'id']==

0]

**

data.isna().

sum(

)

結果展示了每一列的空值情況

province               0

adcode 0

model 0

bodytype 0

regyear 0

regmonth 0

salesvolume 5280id0

forecastvolum 36960

popularity 5280

carcommentvolum 5280

newsreplyvolum 5280

label 5280

使用pandas讀取excel

pandas資料的去重,替換和離散化,異常值的檢測

包括merge和contract方法

pandas-資料的合併與拼接

9.1 寫入乙個excel

一般不需要指定寫入引擎,pandas會根據你的系統和excel格式自動選,缺少的引擎pip install安裝就好。

file_name=

'mdp_original.xlsx'

dataset_original.to_excel(file_name,sheet_name=

'version1'

,index=

false

)

9.2 寫入多個sheet

**如下:

with pd.excelwriter(file_name)

as writer:

dataset_original.to_excel(writer,sheet_name=

'original'

,index=

false

) dataset_v1.to_excel(writer,sheet_name=

'v1'

,index=

false

) dataset_v2.to_excel(writer,sheet_name=

'v2'

,index=

false

)

有點類似於python中的in關鍵字,主要是判斷dataframe特定列是否在某個範圍內,可以看一下這個示例:

>>

>

import numpy as np

>>

>

import pandas as pd

#建立資料

>>

> df=pd.dataframe(np.random.randint(1,

16,size=(4

,4))

,columns=

['a'

,'b'

,'c'

,'d'])

>>

>

print

(df)

a b c d02

71111

25151524

107153

311122

>>

> l=

list

(range(1

,8))

>>

>

print

(l)[1,

2,3,

4,5,

6,7]

>>

> df[

'c']

.isin(l)

0true

1false

2true

3false

name: c, dtype:

bool

# 篩選

>>

> data=df[df[

'c']

.isin(l)

]>>

>

print

(data)

a b c d02

71112

410715

>>

>

參考自pandas中isin()函式及其逆函式使用

#空值處理方式

data.fillna(data.mean(

), inplace =

true

)#以均值填充

data.fillna(

0, inplace =

true

)#以0填充

data.dropna(inplace=

true

)#剔除空值,針對空值數量相對總體而言可以忽略的情況

參考:pandas nan值判斷與

pandas 操作整理

pd.read csv filename 從csv檔案匯入資料,filename路徑 pd.read excel filename 從excel檔案匯入資料 pd.read sql query 從sql表 庫匯入資料 pd.read html url 解析url 字串或者html檔案,抽取其中的ta...

pandas 常用函式整理

pandas常用函式整理,作為個人筆記。僅標記函式大概用途做索引用,具體使用方式請參照pandas官方技術文件。約定from pandas import series,dataframe import pandas as pd import numpy as np 帶.的為series或者dataf...

整理 pandas 常用函式

1.df.head n 顯示資料前n行,不指定n,df.head則會顯示所有的行 2.df.columns.values獲取所有列索引的名稱 3.df.column name 直接獲取列column name的資料 4.pd.unique series 獲取series中元素的唯一值 即去掉重複的 ...