python中html解析庫使用

2021-10-08 17:57:04 字數 935 閱讀 4006

python中解析網頁常用的兩個庫

對於新手來說是利器

from bs4 import beautifulsoup

from lxml import etree

from bs4 import beautifulsoup

soup=beautifulsoup(html,

'lxml'

)kuai=sou.select(

'li.gl-item'

)#獲取內容塊

for i in kuai:

print

(i.select(

'li.gl-item'

).text)

select方法可以套用獲取到塊內容時可以

.text 取內容

[0] 返回列表取列表

[『herd』] 取字典方法取標籤

#定位id[#]定位類[.]定位標籤[ ]

from lxml import etree

html = etree.html(html)

# 呼叫html類進行初始化

ret = tree.xpath(

'//*[@id="main"]/div[3]/div[2]/ul/li/a'

)#定位內容【/】

for i in ret:

print

(i.xpath(

'a/div[2]/text()'))

print

(i.xpath(

'a/@href'

))

xpath方法一樣可以套用

/text()方法是獲取文字

a/@href獲取元素內容

python 解析html中的link

f urllib.urlopen url,proxies proxies 需要 f urllib.urlopen url 不需要 可以直接這麼寫 data f.read f.close parser htmlparser formatter.abstractformatter formatter.d...

Python中利用xpath解析HTML

在進行網頁抓取的時候,分析定位html節點是獲取抓取資訊的關鍵,目前我用的是lxml模組 用來分析xml文件結構的,當然也能分析html結構 利用其lxml.html的xpath對html進行分析,獲取抓取資訊。首先,我們需要安裝乙個支援xpath的python庫。目前在libxml2的 上被推薦的...

python中requests庫的初級使用

基於2.19.1版本的requests庫,參考官方文件 首先是安裝 pip install requests匯入使用 import requests1.發起請求 request.請求方式 請求引數 例如 response requests.get params response requests.p...