Python3 爬蟲學習筆記（三）正規表示式

單字元.

任意乙個字元（除\n）

列舉的乙個字元

\d數字（0-9）

\d非數字

\s空白、空格、tab

\s非空

\w單詞字元（a-z,a-z,0-9,_）

\w非單詞字元

多字元*

0-∞+

1-∞?

0或1m

m-∞m-n

邊界^

開頭$結尾\b

單詞邊界

\b非單詞邊界

分組|

左右任意乙個

(ab)

乙個分組

\num

引用 num 分組匹配到的字串

(?p)

分組起別名

(?p=name)

引用 name 分組匹配到的字串

import re
re.match(正則,字串)      #從字串開始位置匹配
re.searth(正則,字串)     #查詢第乙個
re.findall(正則,字串)    #全部
re.sub(正則,替換字串,原字串)    #替換
re.sub(正則,函式名,原字串)        #函式返回值替換
re.split(正則,字串)               #正則分割字串，返回列表

+？關閉貪婪模式

例：分隔單詞

s = hello world ha ha
re.split(r" +",s)
re.findall(r"\b[a-za-z]+\b",s)

python3爬蟲學習筆記

爬蟲爬取京東某手機頁面 beautifulsoup 原文記錄內容太多現進行摘錄和分類 pip3 install jieba kou ubuntu python cat clahamlet.py usr bin env python coding utf 8 e10.1calhamlet.py def...

python3爬蟲筆記

請求並提取資料的自動化程式發起請求獲取響應內容解析文字內容儲存資料 1.瀏覽器傳送資訊給該所在的伺服器，這個過程叫做http request。2.服務收到瀏覽器傳送的訊息後，能夠根據瀏覽器傳送訊息的內容，做相應的處理，然後把訊息回傳給瀏覽器。這個過程叫做http response。...

Python3爬蟲學習筆記0 0 綜述

歡迎捧場，博主前一段時間零零碎碎地學習了一些python爬蟲的知識，現在把一些學習內容整理出來，水平有限，難免出現錯誤，希望大家能夠批評指正，謝謝。該系列部落格的內容參照崔慶才靜覓的部落格內容完成，謝謝授權。python 版本 3.5 預備知識 python基礎，http協議，正規表示式，url...

Python3 爬蟲學習筆記（三）正規表示式

python3爬蟲學習筆記

python3爬蟲筆記

Python3爬蟲學習筆記0 0 綜述

相關推薦