正規表示式(regular expression)描述了一種字串匹配的模式(pattern),可以用來檢查乙個串是否含有某種子串、將匹配的子串替換或者從某個串中取出符合某個條件的子串等正則的好處是編寫麻煩,理解不容易,但是匹配效率很高,不過時至今日有太多現成的html內容解析庫之後,我個人不太建議再手動用正則來對內容進行匹配了,費時費力
這個庫其實是我個人最喜歡的庫,作則是編寫requests庫的網紅程式設計師 kenneth reitz,他在requests的基礎上加上了對html內容的解析,就變成了requests-html這個庫了
安裝與使用: pip install requests-html
links = response.html.find(
'table.olt'
, first=
true
).find(
'a')
大名鼎鼎的 beautifulsoup庫,出來有些年頭了,在pyhton的html解析庫里屬於重量級的庫,其實我評價它的重量是指比較臃腫,大而全,而且依賴python,適用場景受到了侷限性
beautifulsoup解析內容同樣需要將請求和解析分開,從**清晰程度來講還將就,不過在做複雜的解析時**略顯繁瑣,總體來講可以用,看個人喜好吧。
安裝與使用: pip install beautifulsoup4
soup = beautifulsoup(response,
'html.parser'
)links = soup.findall(
"table",)
[0].findall(
'a')
lxml這個庫同時 支援html和xml的解析,支援xpath解析方式,解析效率挺高,不過我們需要熟悉它的一些規則語法才能使用,例如下圖這些規則。
安裝與使用: pip install lxml
content = doc.xpath(
"//table[@class='olt']/tr/td/a"
)
python爬蟲之解析網頁的工具pyquery
主要是對這篇部落格所做的筆記 有疑惑可以去看這篇文章 from pyquery import pyquery as py 初始化的三種方式 doc py html doc py url encoding utf 8 doc py filename index.html 利用css選擇器 conten...
python爬蟲網頁解析之lxml模組
windows系統下的安裝 方法一 pip3 install lxml pip3 install lxml 4.2.1 cp36 cp36m win amd64.whl 檔案所在的路徑 linux下安裝 方法一 pip3 install lxml 方法二 yum install y epel rel...
Python爬蟲(三) 網頁解析
所需庫from bs4 import beautifulsoup專案 示例html askurl 獲取頁面html文字 soup beautifulsoup html,html.parser 使用html解析來處理html變數 變數名 item1 soup.find all article 匹配ar...