XML格式爬取所需內容

2021-08-27 16:21:54 字數 831 閱讀 4061

通過對html格式轉換成xml的格式後,再對轉換成xml格式後的內容進行xpath匹配處理,得到想要爬取的內容!

import requests

from lxml import etree

# 1.獲取html頁面

url = ''

response = requests.get(url)

content = response.content.decode('u1tf-8')

# 2.把頁面轉換成樹狀結構

tree = etree.html(content)

# 方法一

div_list = tree.xpath('//div/text()')

print(div_list[-6])

# 方法二

tel = tree.xpath('//div[@class="dianhua"]/text()')

print(tel[0])

addr = tree.xpath('//div[@class="dizhi"]/text()')

print(addr[0])

# info = tree.xpath('//li/img/@src')

# print(info)

li_list = tree.xpath('//div[@class="banner_box"]/ul/li')

for li in li_list:

src = li.xpath('./img/@src')[0]

alt = li.xpath('./img/@alt')[0]

print(src, alt)

爬取內容的格式化輸出

目錄對齊問題的解決 呼叫python美化庫 prettytable 前言 基於上次分享 對中國大學排名的爬取 的輸出混亂的問題,提出解決辦法。使用print u 得到結果,發現輸出多了很多不必要的資訊,有空格以及 n,所以使用replace 替換解決def printunivlist ulist,n...

scrapy簡單爬取內容

scrapy的簡單爬取不用新建專案。安裝好scrapy後編寫爬蟲檔案import scrapy class zaobaoscrapy scrapy.spider name zaobao start urls def parse self,response for href in response.c...

Java 爬取影評內容

根據 和頁面編碼獲取網頁原始碼 解析原始碼 批量採集影評資料 jsoup document doc jsoup.parse html element ele doc.getelementbyid 外層div id elements eles ele.getelementbyclass 模板 clas...