最近學到了爬蟲,發現正規表示式有很多要記的東西,於是寫一篇部落格當筆記
\d
匹配乙個數字:12\d
可以匹配123
\w
匹配乙個字母或數字:12\w
可以匹配12a
或123
\s
匹配乙個空格
.
可以匹配任意字元:12.
可以匹配123
或12a
或12#
*
表示任意個字元(包括0個):12*
可以匹配12a6
或12
+
表示至少乙個字元:12+
可以匹配12a6
?
表示0個或1個字元:12?
可以匹配12
或123
表示n個字元:
\d
可以匹配123
表示n-m個字元:
\d
可以匹配12345
[0-9a-za-z\_]
可以匹配乙個數字、字母或者下劃線;
[0-9a-za-z\_]+
可以匹配至少由乙個數字、字母或者下劃線組成的字串
[a-za-z\_][0-9a-za-z\_]*
可以匹配由字母或下劃線開頭,後接任意個由乙個數字、字母或者下劃線組成的字串,也就是python合法的變數;
[a-za-z\_][0-9a-za-z\_]
更精確地限制了變數的長度是1-20個字元(前面1個字元+後面最多19個字元)。
a|b
可以匹配a或b
^
表示行的開頭,^\d
表示必須以數字開頭。
$
表示行的結束,\d$
表示必須以數字結束。
match()
方法用來判斷是否匹配:re.match(r'\d\-\d$','010-1234')
split()
方法用來切分字串:re.split(r'\s+', 'a b c')
Python之正規表示式
正規表示式正規表示式主要用來匹配字串,例如 判斷乙個字串是否是乙個合法的 思想是用描述性的語言給字串乙個規則。re模組中的match函式提供了這種功能,若匹配成功則返回匹配物件,否則返回none。一 語法 d 表示匹配數字 w 表示匹配字母或數字 可以匹配任意字元 s可以匹配乙個空格或者tab 特殊...
Python之正規表示式
正規表示式元字元如下 匹配除換行符以外的所以字元 規定匹配模式必須出現在目標字串的開頭,例如 hell hello hellboy 規定匹配模式必須出現在目標字串的結尾,例如 ar car bar 其前乙個字元必須在目標物件中連續出現零次或多次 其前乙個字元必須在目標物件中連續出現一次或多次 其前乙...
Python之正規表示式
匯入re模組 檢索和替換 re.sub re.sub pattern,repl,string,count 0,flags 0 pattern 正則中的模式字串 repl 替換的字串,也可為乙個函式 string 要被查詢替換的原始字串 count 模式匹配後替換的最大次數,預設 0 表示替換所有的匹...