pandas學習 第九天

2021-10-14 01:54:10 字數 2055 閱讀 5902

二、正規表示式基礎

三、文字處理的五類操作

四、常用字串函式

定義是在index或series上的屬性,用於逐元素處理文字內容

通過來取出某一位置的元素,也能通過其進行切片

一般pandas中的元素型別是以object型別的series進行儲存的,但是object型別是儲存混合型別的

在不同的型別的下的切片,輸出結果與元素的型別有關

import re
re 模組的findall函式來匹配所有出現過但不重疊的模式,第乙個引數是正規表示式,第二個引數是待匹配的字串

str.split能夠把字串的列進行拆分,其中第乙個引數為正規表示式,可選引數包括從左到右的最大拆分次數 n ,是否展開為多個列 expand 。

str.joinstr.catstr.join表示用某個連線符把 series 中的字串列表連線起來,如果列表**現了非字串元素則返回缺失值

str.cat用於合併兩個序列,主要引數為連線符sep、連線形式join以及缺失值替代符號na_rep,其中連線形式預設為以索引為鍵的左連線

str.contains返回了每個字串是否包含正則模式的布林序列

str.startswithstr.endswith返回了每個字串以給定模式為開始和結束的布林序列,它們都不支援正規表示式

str.match,其返回了每個字串起始處是否符合給定正則模式的布林序列

返回索引的匹配函式,即str.findstr.rfind,其分別返回從左到右和從右到左第一次匹配的位置的索引,未找到則返回-1

str.replace

提取既可以認為是一種返回具體元素(而不是布林值或元素對應的索引位置)的匹配操作,也可以認為是一種特殊的拆分操作

str.extractall不同於str.extract只匹配一次,它會把所有符合條件的模式全部匹配出來,如果存在多個結果,則以多級索引的方式儲存

upper, lower, title, capitalize, swapcase這五個函式主要用於字母的大小寫轉化,從下面的例子中就容易領會其功能

pd.to_numeric方法能夠對字元格式的數值進行快速轉換和篩選。其主要引數包括errorsdowncast分別代表了非數值的處理模式和轉換型別。其中,對於不能轉換為數值的有三種errors選項,raise, coerce, ignore分別表示直接報錯、設為缺失以及保持原來的字串

在資料清洗時,可以利用coerce的設定,快速檢視非數值型的行

countlen的作用分別是返回出現正則模式的次數和字串的長度

除空型:strip, rstrip, lstrip ,分別代表去除兩側空格、右側空格和左側空格

填充型:pad是最靈活的,它可以選定字串長度、填充的方向和填充內容,rjust, ljust, center來等效完成,需要注意ljust是指右側填充而不是左側填充,除了可以使用上面的左側填充函式進行操作之外,還可用zfill來實現

學習第九天

怎麼沒有題面?我怎麼知道?換個鏈結吧!向洛谷勢力低頭 我們畫一下這個小螞蟻走出來的圖形,我們就會發現,是乙個類似長城的形狀 這個題,求最大值,我們應該能很容易想到用動態規劃 那麼對於乙個路徑圍成的圖形,我們需要描述的是它的位置和形狀,所以這顯然是個高維的dp 位置很好描述,但是形狀太複雜了,我們怎麼...

python學習 第九天

在下這廂有禮了 爬蟲簡單實現 coding utf 8 import urllib def gethtml url page urllib.urlopen url html page.read returnhtml html gethtml print html l urllib 模組提供了讀取we...

第九天學習日誌

學習日誌 蘇嵌專案實訓 姓名 梁軒齊 日期 2018.7.12 今日學習任務 行列式鍵盤輸入及led顯示 今日任務完成情況 基本完成,但除錯不出來 今日中發現問題彙總 寫 很吃力,基本框架可以寫出,但是,除錯不出來。今日未解決問題 除錯不出 今日開發收穫 學會了程式設計過程中的一些思路,可以進行一些...