目錄3.匹配多個字元
4.實戰案例
5.總結
通俗解釋:按照某個規則,從某個字串中匹配出想要的資料。
官方解釋:正規表示式,又稱規則表示式,通常被用來檢索、替換那些符合某個模式(規則)的文字。
匹配某個字串,指定乙個字元,如he
,從hello
中匹配
import re
text='hello'
ret = re.match('he',text)
print(ret.group())
列印結果:he
import re
text = 'abcdrf'
ret = re.match('.',text)
print(ret.group())
列印結果:a
import re
text = '123'
ret = re.match('\d',text)
print(ret.group())
列印結果:1
import re
text = 'abc'
ret = re.match('\d',text)
print(ret.group())
列印結果:a
import re
text = '\t'
ret = re.match('\s',text)
print(ord(ret.group()))
列印結果:9 (通過ascii碼表可以查到9就是製表符)
import re
text = 'abc'
ret = re.match('\s',text)
print(ord(ret.group()))
列印結果:a
import re
text = '_abc'
ret = re.match('\w',text)
print(ret.group())
列印結果:_
import re
text = '#'
ret = re.match('\w',text)
print(ret.group())
列印結果:#
import re
text = '0871-96532'
ret = re.match('[\d-]+',text)
print(ret.group())
列印結果:0871-96532
import re
text = '0871-96532'
ret = re.match('[0-9]',text)
print(ret.group())
列印結果:0
import re
text = '_abc'
ret = re.match('[a-za-z0-9_]',text)
print(ret.group())
列印結果:_
import re
text = '#abc'
ret = re.match('[^a-za-z0-9_]',text)
print(ret.group())
列印結果:#
注意:以下的*,+,?依賴與他之前的規則,例如:\d+
表示匹配乙個或者任意多個數字
import re
text = '12345abc'
ret = re.match('\d*',text)
print(ret.group())
列印結果:12345
與+號的區別在與當字串為空的時候,*號不報錯,但是+號會報錯。
import re
text = '12345abc'
ret = re.match('\d+',text)
print(ret.group())
列印結果:12345
import re
text = '12345abc'
ret = re.match('\w?',text)
print(ret.group())
列印結果:1
此語法根據字串的長度盡可能多的匹配
import re
text = '12345abc'
ret = re.match('\w',text)
print(ret.group())
列印結果:12345
說明:此處假定手機號只有13,14,15,16,18等開頭
import re
text = '18298377942'
ret = re.match('1[3,4,5,6,8]\d',text)
print(ret.group())
列印結果:18298377942
import re
text = '[email protected]'
ret = re.match('\w+@[a-za-z]+\.[a-za-z]+',text)
print(ret.group())
列印結果:[email protected]
python3爬蟲實戰(3)
今天心血來潮去爬取了一下招聘 的實時招聘資訊。是 選的條件是北京,實習生,計算機軟體。分析 之後發現還是很容易的,不過過程中出了不少小問題,在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後,tem ul bsoj.find ul 存下整個ul元素。對...
python3爬蟲 正規表示式
正規表示式 首先要匯入re庫 其中常用的函式 compile函式 格式為re.complie pattern flags pattern 乙個字串形式的正規表示式 flags 可選,表示匹配模式,比如忽略大小寫,多行模式等,具體引數為 re.i 忽略大小寫 re.l 表示特殊字符集 w,w,b,b,...
python3 爬蟲入門
這裡爬取貓眼電影 top100 榜的資訊,作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單,環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯,因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...