re 模組的使用:
1.使用compile()函式編譯乙個parttern物件, 例如:parttern=re.compile(r'\d+')
2.通過pattern物件提供的一系列屬相和方法,對文字進行匹配查詢,獲得結果,即乙個match物件
3.使用match物件的屬相和方法獲取資訊
match.group()
match.groups() # 匹配的所有 等同於 match.group()等同於match.group(0)
match.start() # 開始位置
match.end() # 結束位置
match.span() # 返回開始結束的區域跨度
4、匹配中文
中文的unicode編碼範圍主要在[u4e00-u9fa5],沒有包括全形中文標點,不過大部分情況下是夠用了
#-*- conding:utf-8 -*-
import
retitle = '
你好,python , 你好,世界 hello world
'pa = re.compile(r'
[\u4e00-\u9fa5]+')
t =pa.findall(title)
print(t) #
['你好', '你好', '世界']
5、貪婪匹配-------非貪婪匹配:python預設是貪婪匹配
貪婪匹配:在匹配成功的前提下,盡可能多的匹配(*)
非貪婪匹配:在匹配成功的前提下,盡可能少的匹配(?)
#-*- conding:utf-8 -*-
import
res = '
abbbbbbdsddbbbb
'res = re.findall('
ab*', s) #
*號是匹配前乙個字元0次或無限次
print(res) #
['abbbbbb'] 匹配ab後已經匹配成功,但是由於是貪婪匹配,所以會繼續往後嘗試匹配
res2 = re.findall('
ab*?
', s)
print(res2) #
['a'] 匹配a成功後,由於是非貪婪匹配,所以匹配就結束了
加油,一步一步往下走,堅持下去,自己給自己打氣加油,workon
Python re模組正規表示式
本文建議有一定正則基礎的看 正規表示式可以包含普通或者特殊字元。絕大部分普通字元,比如 a a 或者 0 都是最簡單的正規表示式。它們就匹配自身。有些字元,比如 或者 屬於特殊字元。特殊字元既可以表示它的普通含義,也可以影響它旁邊的正規表示式的解釋。重複修飾符 等 不能直接巢狀。這樣避免了非貪婪字尾...
python re模組 正規表示式
需要 importre 轉義字元 abc 匹配中括號中的乙個字元 a c 匹配a c中的乙個字元 a dm p 匹配a d或m p中的乙個字元 除換行符 n 之外的任何單個字元匹配 w 匹配乙個單詞字元 字母 包括a z a z 數字 下劃線 w 匹配 除 w之外的其它字元 s 匹配 任何空白字元,...
正規表示式 python re正則模組
python內建模組連線 re d w s 等解釋 快速使用 多行匹配 re.dotall 查詢 findall re.compile findall xml line 0 返回列表 match re.compile match xml line 返回第乙個,不搜尋新行,match group 返回...