原子
原子是正規表示式中最基本的組成單位,每個正規表示式中至少要包含乙個原子。常見的原子型別有:
a普通字元作為原子
b非列印字元作為原子
c通用字元作為原子
d原子表。
importre string="
taoyunjiaoyu"#
普通字元作為原子
pat="
yum"
rst=re.search(pat,string)
(rst)
#非列印字元作為原子
#\n換行符\t製表符
#通用字元作為原子
\w字母、數字、下劃線
\w除字母、數字、下劃線
\d 十進位制數字
\d除十進位制數字
\s 空白字元
\s除空白字元
#原子表
元字元
所謂的元字元,就是正規表示式中具有一些特殊含義的字元,比如重複n次前面的字元等。
. 除換行外任意乙個字元view code^開始位置
$ 結束位置
* 0\1\多次
?01次
+ 1\多次
恰好n次
至少n次
in,m}至少n,至多m次
|模式選擇符或
() 模式單元
模式修政符
所謂的模式修正符,即可以在不改變正規表示式的情況下,通過模式修正符改變正規表示式的含義,從而實現一些匹配結果的調整等功能。
i匹配時忽略大小寫
string="view codepython
"pat="
pyt"
rst=re.search(pat,string,re.i)
print(rst)
m多行匹配
l本地化識別匹配
u unicode
s讓.匹配包括換行符
貪婪模式&懶惰模式
貪婪模式的核心點就是盡可能多的匹配,而懶惰模式的核心點就是盡可能少的匹配。
#view code貪婪模式與懶惰模式
string="
povthonyhjskjsa
"pat1="
p.*y"#
貪婪模式
pat2="
p.*?y"#
懶惰模式
rst=re.search(pat1,string,re.l)
rst2=re.search(pat2,string,re.l)
(rst)
print(rst2)
正規表示式函式
re.match()函式:從頭開始匹配,匹配乙個
re.search()函式:從任意位置開始匹配,匹配乙個
全域性匹配函式
全域性匹配格式: re.compile(正規表示式).findall(資料)
python中的正規表示式
正規表示式是一種用來匹配字串的強有力的 它的設計思想是用一種描述性的語言來給字串定義乙個規則,凡是符合規則的字串,我們就認為它 匹配 了,否則,該字串就是不合法的。因為正規表示式也是用字串表示的,所以,我們要首先了解如何用字元來描述字元。在正規表示式中,如果直接給出字元,就是精確匹配。用 d可以匹配...
Python中的正規表示式
在使用python製作爬蟲之前,我們必須要對python的正規表示式有一定的了解,在python中使用正規表示式要匯入re包 d匹配數字1 9 w匹配字元 匹配集合裡面的字元 匹配前面出現的正規表示式1次或多次 表示匹配任意乙個字元,除換行符除外,x.匹配xy23中的xy,若是x.則匹配出xy2 表...
Python中的正規表示式
對應 abc 001 s r abc 001 加r字首,就不用考慮轉義的問題了。print re.match d d 010 12345 匹配成功返回乙個match物件,否則返回none.re.match 的常見寫法 test 輸入字串 if re.match 正規表示式 test print ok...