Python之爬蟲學習記錄簿(3)

2021-10-07 10:13:55 字數 346 閱讀 5630

基本庫更完了,更一下re,當然只是用於提取資訊的簡略內容。

re官方文件:re文件

1,match()—嘗試從字串起始位置匹配正規表示式,如果匹配,返回匹配成功的結果,否則返回none。

.*匹配任意盡可能多的字元,.*?匹配盡可能少的任意字元。

2,search()—掃瞄整個字串,返回第乙個匹配成功的結果。

3,findall()—搜尋整個字串,返回匹配的所有內容。

4,sub()—替換文字中所有符合規則的字串

5,compile()—可以將正則字串編譯成正規表示式物件,這個方法也是在爬取資訊時用的最多的方法。

Python之爬蟲學習記錄簿

作為python爬蟲初學者,想用用筆記記錄一下學到的知識點,畢竟書看完就吃灰,還是得習慣電子筆記才是。內容簡略,僅供參考。1.示例 import urllib.request response urllib.request.urlopen 請求的url 這樣就完成了最簡單的請求,接下來就可以進行提取...

Python之爬蟲學習(七) 問題記錄

1 ip質量問題 獲取到的 ip可能會失效,所以需要多次校驗ip的質量及記錄問題url重新請求 獲取時校驗 獲取可用ip print self.urlproxylist 使用時再次校驗 def getusefulproxy self proxy random.choice self.urlproxy...

python爬蟲入門學習記錄

在使用爬蟲前確保requests和beautifulsoup4模組都已經安裝好了 pip install requests pip install beautifulsoup4 beautifulsoup4使用手冊 簡單的示列 import requests 匯入requests包 url strh...