pandas記錄之文字資料

特殊字元

資料在收集的過程中由於各種原因，彙總的資料會出現一些出乎預料的問題

#資料中有特殊字元 3090 -396 9`485/7 name: col2, dtype: string

在進行數值統計時很頭痛，一般情況下就是根據報錯資訊逐個replace

df.loc[df[
'col2'].
str.contains(
'0-'),
'col2']=
'0'df.loc[df[
'col2'].
str.contains(
'9`'),
'col2']=
'9'

乙個兩個還好，第三個出現時，已經有點奔潰了

從joyful-pandas中學到了一種使用正規表示式的方法（以下為鏈結）

#部分拆分
df2[
'id'
].astype(
'str'
).astype(
'string').
str.extract(r'(?p《姓名》\w+):(?p《國籍》\w)國人,性別(?p《性別》\w)，?'
注意：正規表示式在文字資料處理中能夠減少很多任務作量，需花時間精力學習，多實踐才是王道！
				Pandas學習之文字資料
import numpy as np import pandas as pd pd.series 1 1 0 1 1 1 dtype object 上面的資料型別為 object，將其轉化為string型別 pd.series 1 1 astype str astype string 0 1 1 1...
				pandas文字資料
文字資料 string型別的性質 string與object的區別 字元訪問方法 string accessor methods，如str.count 會返回相應資料的nullable型別，而object會隨著缺失值的存在而改變返回型別 某些series 法不能在string上使 如 series....
				Pandas 文字資料方法 slice
series.str.slice start none,stop none,step none 按下標擷取字串 引數 start 整型或缺省 stop 整型或缺省 step 整型或缺省 returns 序列series 索引index series.str.slice replace start n...

pandas記錄之文字資料

Pandas學習之文字資料

pandas文字資料

Pandas 文字資料方法 slice

相關推薦