二、正規表示式基礎
三、文字處理的五類操作
四、常用字串函式
定義是在index或series
上的屬性,用於逐元素處理文字內容
通過來取出某一位置的元素,也能通過其進行切片
一般pandas中的元素型別是以object
型別的series
進行儲存的,但是object
型別是儲存混合型別的
在不同的型別的下的切片,輸出結果與元素的型別有關
import re
re 模組的findall
函式來匹配所有出現過但不重疊的模式,第乙個引數是正規表示式,第二個引數是待匹配的字串
str.split
能夠把字串的列進行拆分,其中第乙個引數為正規表示式,可選引數包括從左到右的最大拆分次數 n ,是否展開為多個列 expand 。
str.join
和str.cat
。str.join
表示用某個連線符把 series 中的字串列表連線起來,如果列表**現了非字串元素則返回缺失值
str.cat
用於合併兩個序列,主要引數為連線符sep
、連線形式join
以及缺失值替代符號na_rep
,其中連線形式預設為以索引為鍵的左連線
str.contains
返回了每個字串是否包含正則模式的布林序列
str.startswith
和str.endswith
返回了每個字串以給定模式為開始和結束的布林序列,它們都不支援正規表示式
str.match
,其返回了每個字串起始處是否符合給定正則模式的布林序列
返回索引的匹配函式,即str.find
與str.rfind
,其分別返回從左到右和從右到左第一次匹配的位置的索引,未找到則返回-1
str.replace
提取既可以認為是一種返回具體元素(而不是布林值或元素對應的索引位置)的匹配操作,也可以認為是一種特殊的拆分操作
str.extractall
不同於str.extract
只匹配一次,它會把所有符合條件的模式全部匹配出來,如果存在多個結果,則以多級索引的方式儲存
upper, lower, title, capitalize, swapcase
這五個函式主要用於字母的大小寫轉化,從下面的例子中就容易領會其功能
pd.to_numeric
方法能夠對字元格式的數值進行快速轉換和篩選。其主要引數包括errors
和downcast
分別代表了非數值的處理模式和轉換型別。其中,對於不能轉換為數值的有三種errors
選項,raise, coerce, ignore
分別表示直接報錯、設為缺失以及保持原來的字串
在資料清洗時,可以利用coerce
的設定,快速檢視非數值型的行
count
和len
的作用分別是返回出現正則模式的次數和字串的長度
除空型:strip, rstrip, lstrip ,
分別代表去除兩側空格、右側空格和左側空格
填充型:pad
是最靈活的,它可以選定字串長度、填充的方向和填充內容,rjust, ljust, center
來等效完成,需要注意ljust
是指右側填充而不是左側填充,除了可以使用上面的左側填充函式進行操作之外,還可用zfill
來實現
學習第九天
怎麼沒有題面?我怎麼知道?換個鏈結吧!向洛谷勢力低頭 我們畫一下這個小螞蟻走出來的圖形,我們就會發現,是乙個類似長城的形狀 這個題,求最大值,我們應該能很容易想到用動態規劃 那麼對於乙個路徑圍成的圖形,我們需要描述的是它的位置和形狀,所以這顯然是個高維的dp 位置很好描述,但是形狀太複雜了,我們怎麼...
python學習 第九天
在下這廂有禮了 爬蟲簡單實現 coding utf 8 import urllib def gethtml url page urllib.urlopen url html page.read returnhtml html gethtml print html l urllib 模組提供了讀取we...
第九天學習日誌
學習日誌 蘇嵌專案實訓 姓名 梁軒齊 日期 2018.7.12 今日學習任務 行列式鍵盤輸入及led顯示 今日任務完成情況 基本完成,但除錯不出來 今日中發現問題彙總 寫 很吃力,基本框架可以寫出,但是,除錯不出來。今日未解決問題 除錯不出 今日開發收穫 學會了程式設計過程中的一些思路,可以進行一些...