Python3 爬蟲 U15 正規表示式

2022-01-30 00:07:34 字數 3368 閱讀 5030

目錄3.匹配多個字元

4.實戰案例

5.總結

通俗解釋:按照某個規則,從某個字串中匹配出想要的資料。

官方解釋:正規表示式,又稱規則表示式,通常被用來檢索、替換那些符合某個模式(規則)的文字。

匹配某個字串,指定乙個字元,如he,從hello中匹配

import re

text='hello'

ret = re.match('he',text)

print(ret.group())

列印結果:he

import re

text = 'abcdrf'

ret = re.match('.',text)

print(ret.group())

列印結果:a

import re

text = '123'

ret = re.match('\d',text)

print(ret.group())

列印結果:1

import re

text = 'abc'

ret = re.match('\d',text)

print(ret.group())

列印結果:a

import re

text = '\t'

ret = re.match('\s',text)

print(ord(ret.group()))

列印結果:9 (通過ascii碼表可以查到9就是製表符)

import re

text = 'abc'

ret = re.match('\s',text)

print(ord(ret.group()))

列印結果:a

import re

text = '_abc'

ret = re.match('\w',text)

print(ret.group())

列印結果:_

import re

text = '#'

ret = re.match('\w',text)

print(ret.group())

列印結果:#

import re

text = '0871-96532'

ret = re.match('[\d-]+',text)

print(ret.group())

列印結果:0871-96532

import re

text = '0871-96532'

ret = re.match('[0-9]',text)

print(ret.group())

列印結果:0

import re

text = '_abc'

ret = re.match('[a-za-z0-9_]',text)

print(ret.group())

列印結果:_

import re

text = '#abc'

ret = re.match('[^a-za-z0-9_]',text)

print(ret.group())

列印結果:#

注意:以下的*,+,?依賴與他之前的規則,例如:\d+表示匹配乙個或者任意多個數字

import re

text = '12345abc'

ret = re.match('\d*',text)

print(ret.group())

列印結果:12345

與+號的區別在與當字串為空的時候,*號不報錯,但是+號會報錯。

import re

text = '12345abc'

ret = re.match('\d+',text)

print(ret.group())

列印結果:12345

import re

text = '12345abc'

ret = re.match('\w?',text)

print(ret.group())

列印結果:1

此語法根據字串的長度盡可能多的匹配

import re

text = '12345abc'

ret = re.match('\w',text)

print(ret.group())

列印結果:12345

說明:此處假定手機號只有13,14,15,16,18等開頭

import re

text = '18298377942'

ret = re.match('1[3,4,5,6,8]\d',text)

print(ret.group())

列印結果:18298377942

import re

text = '[email protected]'

ret = re.match('\w+@[a-za-z]+\.[a-za-z]+',text)

print(ret.group())

列印結果:[email protected]

python3爬蟲實戰(3)

今天心血來潮去爬取了一下招聘 的實時招聘資訊。是 選的條件是北京,實習生,計算機軟體。分析 之後發現還是很容易的,不過過程中出了不少小問題,在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後,tem ul bsoj.find ul 存下整個ul元素。對...

python3爬蟲 正規表示式

正規表示式 首先要匯入re庫 其中常用的函式 compile函式 格式為re.complie pattern flags pattern 乙個字串形式的正規表示式 flags 可選,表示匹配模式,比如忽略大小寫,多行模式等,具體引數為 re.i 忽略大小寫 re.l 表示特殊字符集 w,w,b,b,...

python3 爬蟲入門

這裡爬取貓眼電影 top100 榜的資訊,作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單,環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯,因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...