python中解析網頁常用的兩個庫
對於新手來說是利器
from bs4 import beautifulsoup
from lxml import etree
from bs4 import beautifulsoup
soup=beautifulsoup(html,
'lxml'
)kuai=sou.select(
'li.gl-item'
)#獲取內容塊
for i in kuai:
print
(i.select(
'li.gl-item'
).text)
select方法可以套用獲取到塊內容時可以.text 取內容
[0] 返回列表取列表
[『herd』] 取字典方法取標籤
#定位id[#]定位類[.]定位標籤[ ]
from lxml import etree
html = etree.html(html)
# 呼叫html類進行初始化
ret = tree.xpath(
'//*[@id="main"]/div[3]/div[2]/ul/li/a'
)#定位內容【/】
for i in ret:
print
(i.xpath(
'a/div[2]/text()'))
print
(i.xpath(
'a/@href'
))
xpath方法一樣可以套用/text()方法是獲取文字
a/@href獲取元素內容
python 解析html中的link
f urllib.urlopen url,proxies proxies 需要 f urllib.urlopen url 不需要 可以直接這麼寫 data f.read f.close parser htmlparser formatter.abstractformatter formatter.d...
Python中利用xpath解析HTML
在進行網頁抓取的時候,分析定位html節點是獲取抓取資訊的關鍵,目前我用的是lxml模組 用來分析xml文件結構的,當然也能分析html結構 利用其lxml.html的xpath對html進行分析,獲取抓取資訊。首先,我們需要安裝乙個支援xpath的python庫。目前在libxml2的 上被推薦的...
python中requests庫的初級使用
基於2.19.1版本的requests庫,參考官方文件 首先是安裝 pip install requests匯入使用 import requests1.發起請求 request.請求方式 請求引數 例如 response requests.get params response requests.p...