s = pd.series(['tom', '
william rick
', '
john
', '
alber@t
', np.nan, '
1234
','steveminsu'])
s.str
#不能對series物件使用str處理函式,必須轉換成pandas.core.strings.stringmethods
s.str.lower()#
所有字串小寫
s.str.upper()#
所有字串大寫
s.str.len()#
統計每個字串中字元個數
s.str.strip()#
去掉字串右側空格
s = pd.series(['
tom
', '
william rick
', '
john
', '
alber@t'])
s.str.split(
'')#
以空格為分隔符將,將字串進行分割
s.str.cat(sep='
<=>
')#以' <=> '為連線符將所有元素連線成長字串輸出
s.str.get_dummies()#
對文字資料進行獨熱編碼
s.str.contains('
')#判斷各個元素是否含有』 『
s.str.replace('
@','$'
)
s.str.repeat(2)#
將各個元素的內容重複兩遍放在原來的位置
s.str.count('
m')#
計算各個元素中包含』m『的次數
s.str.startswith('
t')#
判斷各個元素是否以't'開頭
s.str.endswith('
t')#
判斷各個元素是否以't'結尾
s.str.find('
e')#
查詢』e『在各個元素中的位置,沒有則返回-1
s.str.findall('
am')#
將每個元素中的』am『變為list返回
s.str.swapcase()#
轉換大小寫
s.str.isupper()
s.str.islower()
s.str.isnumeric()
資料分析 series字串離散化
問題 1 假設dataframe中有一列名為type,其字段中內容為a,b,c 等用,隔開的值,如 type a,b,c a,f,x b,c,e 統計type中每個型別出現的次數 並繪圖 import pandas as pd import numpy as np from matplotlib i...
基於pandas的文字資料(字串)處理
二 拆分與拼接 三 替換 四 子串匹配與提取 五 常用字串方法 string型別和object不同之處有三 字元訪問方法 string accessor methods,如str.count 會返回相應資料的nullable型別,而object會隨缺失值的存在而改變返回型別 某些series方法不能...
python3 基本資料型別 字串與字串編碼
字串可以使用單引號 或雙引號 來表示。只要給變數賦值乙個字串變數就建立了乙個字串。python中沒有單字元型別,單字元也是使用字串表示。var1 hello world var2 python var3 h 可以使用索引訪問單個字元。可以使用slice訪問多個字元。print var1 0 hpri...