特殊字元
資料在收集的過程中由於各種原因,彙總的資料會出現一些出乎預料的問題
#資料中有特殊字元
3090
-396
9`485/7
name: col2, dtype: string
在進行數值統計時很頭痛,一般情況下就是根據報錯資訊逐個replace
df.loc[df[
'col2'].
str.contains(
'0-'),
'col2']=
'0'df.loc[df[
'col2'].
str.contains(
'9`'),
'col2']=
'9'
乙個兩個還好,第三個出現時,已經有點奔潰了
從joyful-pandas中學到了一種使用正規表示式的方法(以下為鏈結)
#部分拆分
df2[
'id'
].astype(
'str'
).astype(
'string').
str.extract(r'(?p《姓名》\w+):(?p《國籍》\w)國人,性別(?p《性別》\w),?'
注意:正規表示式在文字資料處理中能夠減少很多任務作量,需花時間精力學習,多實踐才是王道!
Pandas學習之文字資料
import numpy as np import pandas as pd pd.series 1 1 0 1 1 1 dtype object 上面的資料型別為 object,將其轉化為string型別 pd.series 1 1 astype str astype string 0 1 1 1...
pandas文字資料
文字資料 string型別的性質 string與object的區別 字元訪問方法 string accessor methods,如str.count 會返回相應資料的nullable型別,而object會隨著缺失值的存在而改變返回型別 某些series 法不能在string上使 如 series....
Pandas 文字資料方法 slice
series.str.slice start none,stop none,step none 按下標擷取字串 引數 start 整型或缺省 stop 整型或缺省 step 整型或缺省 returns 序列series 索引index series.str.slice replace start n...