正規表示式(regular expression)是使用單個字串來描述、匹配一系列語法規則的字串。簡稱re。
re是爬蟲的基礎模組,可以用於驗證**號碼,身份證號,郵箱,使用者名稱和密碼,url位址等。
呼叫re模組(python內嵌的包)
import re
使用match或者search方法進行匹配操作
a=re.match(pattern,string,flags=0)
pattern 匹配規則模式
string 要匹配的字串
匹配到的資料通常使用group等方法來提取(字串格式),groups(所有分組元組格式)
import re
try:
pattern=r'(\w+) (\w+)(?p.)*'
string='青苔 asd123!!!'
a=re.match(pattern,string)
print('匹配成功,結果為:',a.group)
except:
print('匹配失敗!')
輸出—>匹配成功,結果為:青苔asd
string:匹配時使用的文字
re:匹配時使用的pattren物件
pos:文字中正規表示式開始搜尋的索引。值與 pattern.match()和 pattern.seach()方法的同名引數相同。
endpos:文字中正規表示式結束搜尋的索引。值與 pattern.match()和 pattern.seach()方法的同名引數相同。
lastindex:最後乙個**獲的分組在文字中的索引。如果沒有**獲的分組,將為 none。
lastgroup:最後乙個**獲的分組的別名。如果這個分組沒有別名或者沒有**獲的分組,將為 none。
group函式,獲取乙個或多個分組的字串。
start函式,返回指定的組截獲的子串在 string 中的起始索引。
end函式,返回指定的組截獲的子串在 string 中的結束索引。
span函式,返回指定的組截獲的子串在 string 中的結束索引。
expand函式,將匹配到的分組代入 template 中然後返回。
個人理解:match和search方法很相似,但search方法用來匹配字串中間的資料,而match方法只能從頭開始檢索。
python正規表示式及使用正規表示式的例子
正規表示式 正則表達用來匹配字串 正規表示式匹配過程 正規表示式語法規則 匹配除換行 n 外的任意字串 abcabc 轉義字元,使後乙個字元改變原來的意思 a c a c 字符集,對應的位置可以是字符集中任意字元,字符集中的字元可以逐個列出,也可以給出範圍,如 abc 或 a c 第乙個字元如果是 ...
python正規表示式元字元 正規表示式
字元 描述將下乙個字元標記為乙個特殊字元 或乙個原義字元 或乙個 向後引用 或乙個八進位制轉義符。例如,n 匹配字元 n n 匹配乙個換行符。序列 匹配 而 則匹配 匹配輸入字串的開始位置。如果設定了 regexp 物件的 multiline 屬性,也匹配 n 或 r 之後的位置。匹配輸入字串的結束...
Python 正規表示式
1.在python中,所有和正規表示式相關的功能都包含在re模組中。2.字元 表示 字串的末尾 如 road 則表示 只有當 road 出現在乙個字串的尾部時才會匹配。3.字元 表示 字元中的開始 如 road 則表示 只有當 road 出現在乙個字串的頭部時才會匹配。4.利用re.sub函式對字串...