Pandas高階函式資料處理

2021-10-20 09:45:00 字數 824 閱讀 7290

import pandas as pd

df = pd.read_excel(

'成績表(統計).xls'

,sheet_name=

'寫入(新)'

,dtype=

str)

print

(df)

## 建立函式遍歷修改

deff

(x):

if'0'

instr

(x):

return

'女'elif

'1'in

str(x)

:return

'男'else

:return

'未知'

df['gender'

]= df[

'性別'].

(f)## 使用map()函式修改

df['gender'

]= df[

'性別'].

map(

)## 使用map()函式巢狀建立的函式

df['gender'

]= df[

'性別'].

map(f)

## 脫敏處理(**號碼)

df = df[

'姓名'].

(lambda x:

str(x)

.replace(x[1]

,'*'))

## 提取相關資訊(從出生日期取出年份)

df = df[

'姓名'].

(lambda x: x[0]

)print

(df)

5,pandas高階資料處理

使用duplicated 函式檢測重複的行,返回元素為布林型別的series物件,每個元素對應一行,如果該行不是第一次出現,則元素為true keep引數 指定保留哪一重複的行資料 import numpy as np import pandas as pd from pandas import s...

pandas 資料處理

pandas中資料可以分為series,dataframe,panel分別表示一維至三維資料。其中在構造時,index表示行名,columns表示列名 構造方式 s pd.series data index index s pd series np random randn 5 index a b ...

pandas資料處理

dataframe.duplicated subset none,keep first 判斷dataframe中的資料是否有重複 必須一行中所有資料都重複才算重複,只能判斷行,不能判斷列 返回series dataframe.drop duplicates subset none,keep firs...