一、正規表示式之元字元
就是正規表示式中具有一些特殊含義的字元
二、正規表示式括號的作用
1、限制多選項的範圍 (fri|1)st 這樣寫會匹配frist或1st 如果去掉,則 fri|1st就是匹配 fri或1st
2、將若干個字元進行組合,受量詞的同時作用。例如 th+ 表示匹配 th thh thhh(h無數次),如果是(th)+,則匹配的是th thth ththth(th無數次)
3、反向引用,即前面括號匹配到的東西記憶與後面,常用於匹配重複單詞。
4、分組
三、常用的元字元
四、常用的反義元字元
五、模式修正符
可以在不改變正規表示式的情況下,通過模式修正符改變正規表示式的含義,從而實現一些匹配結果的調整等功能
i 匹配時忽略大小寫 m多行匹配
l 本地化識別匹配 u unicode
s 讓.匹配包括換行符
import re
string="python"
pat="pyt"
rst=re.search(pat,string,re.i)
print(rst)
執行結果
五、貪婪模式與懶惰模式
1.貪婪模式
盡可能多的匹配,挖掘更多
import re
string="helloworldbeijji"
pat1="h.*l"#貪婪模式
rst=re.search(pat1,string,re.i)
print(rst)
執行結果
2.懶惰模式
盡可能少的匹配
import re
string="helloworldbeijji"
pat2="h.*?l"#懶惰模式,精準
rst2=re.search(pat2,string,re.i)
print(rst2)
執行結果
3.區別
上面貪婪模式匹配出來helloworl
懶惰模式匹配出的是hel
網路爬蟲(三) 簡單使用scrapy
一.首先簡單了解scrapy的架構 官方給出的解釋 spiders spider是scrapy使用者編寫用於分析response並提取item 即獲取到的item 或額外跟進的url的類。每個spider負責處理乙個特定 或一些 item pipeline item pipeline負責處理被spi...
網路爬蟲 SQL注入檢測三
4.3 爬蟲和sql檢查的結合 在lib core spider.py檔案引用一下from script import sqlcheck 等下節課我們開發出了外掛程式系統後,就不需要這樣引用了,爬蟲會自動呼叫,但這節課為了測試,我們還是引用一下。在craw 方法中,取出新url地方呼叫一下。sql ...
網路爬蟲 多執行緒爬蟲
多執行緒爬蟲 import threading class one threading.thread def init self threading.thread.init self def run self for i in range 0,10 print 我是執行緒1 class two th...