re.match試著從字串的起始位置匹配乙個模式,
若不能從起始位置匹配成功,match()就返回none.
import re
content = 'hello 123 4567 world_this demo'
res = re.match('^hello\s
\d\d
\d\s
\d\s
\w\sdemo
$', content)
print(res)
print(res.group())
print(res.span())
import re
content = 'hello 123 4567 world_this demo'
res = re.match('^hello\s(\d+)\s(\d
)\s\w
\sdemo
$', content)
print(res)
print(res.group(1))
import re
content = 'hello 123 4567 world_this is a regex demo'
res = re.macth('^
import re
content = 'hello 123 4567 world_this is a regex demo'
res = re.match('^he.*(\d+).*demo$', content)
print(res)
import re
content = 'hello 123 4567 world_this is a regex demo'
res = re.match('^he.*?(\d+).*demo$', content)
print(res)
import re
content = '''hello 123 4567 world_this
is a regex demo
'''res = re.match('^he.*?(\d+).*demo$', content, res.s)
print(res)
import re
content = 'price is $5.00'
result = re.match('price is \$5\.00', content)
print(result)
掃瞄整個字串並且返回第乙個掃瞄到的結果
import re
content = 'extra stings hello 1234567 world_this is a regex demo ex
tra stings'
result = re.search('hello.*?(\d+).*?demo', content)
print(result)
print(result.group(1))
替換字串每乙個匹配的子串,然後返回替換後的字串。
>>> content = 'extra stings hello 1234567 world_this is a regex demo extra stings'
>>> content = re.sub('\d+','',content)
>>>
print content
extra stings hello world_this is a regex demo extra stings
>>> content = 'extra stings hello 1234567 world_this is a regex demo extra stings'
>>> content = re.sub('(\d+)',r'\1 445566',content)
>>>
print content
extra stings hello 1234567
445566 world_this is a regex demo extra stings
Python 正規表示式(爬蟲篇)
實際上爬蟲有四個主要步驟 取 去掉對我們沒用處的資料 處理資料 按照我們想要的方式儲存和使用 我們爬下來的資料大部分都是全部的網頁,這些資料有時候是很龐大並且混亂的,大部分的董事是我們不關心的,所以我們需要將之按我們的需要過濾和匹配出來。那麼對於文字的過濾或者規則的匹配,最強大的就是正規表示式,是 ...
爬蟲 正規表示式
正規表示式 regular expression 是一種字串匹配的模式 pattern 它可以檢查乙個字串是否含有某種子串 替換匹配的子串 提取某個字串中匹配的子串。匯入正則模組 importre 字元匹配 rs re.findall abc adc print rs rs re.findall a...
爬蟲之正規表示式基礎篇
一 點睛 1 正規表示式工具 2 測試一下 3 說明 其實,這裡就是用了正規表示式匹配,也就是用一定的規則將特定的文字提取出來。比如,電子郵件開頭是一段字串,然後是乙個 符號,最後是某個網域名稱,這是有特定的組成格式的。二 常用的匹配規則模式 描述 w 匹配字母 數字及下劃線 w匹配不是字母 數字及...