datawhale爬蟲(xpath爬取丁香網評論)

2021-09-11 21:10:30 字數 1280 閱讀 2692

1.xpath基礎學習

前面我們介紹了 beautifulsoup 的用法,這個已經是非常強大的庫了,不過還有一些比較流行的解析庫,例如 lxml,使用的是 xpath 語法,同樣是效率比較高的解析方法。如果大家對 beautifulsoup 使用不太習慣的話,可以嘗試下 xpath。

xpath 是一門在 xml 文件中查詢資訊的語言。xpath 可用來在 xml 文件中對元素和屬性進行遍歷。xpath 是 w3c xslt 標準的主要元素,並且 xquery 和 xpointer 都構建於 xpath 表達之上。

給出相關官方鏈結

給出**

import  requests

from lxml import etree

url=''

headers =

x= requests.get(url, headers=headers, timeout=3)

wb_data=x.text

html = etree.html(wb_data)#原始碼分析

data=

new_data=

result_txt = html.xpath('//td[@class="postbody"]/text()')#找到所需要的資料

print(result_txt)

result_name=html.xpath('//div[@class="auth"]/a/text()')

print(result_name)

for i in range(0,4):

for i in data:

x=i.replace("\n","").replace("\t","").replace(" ","")

print(new_data)

資料儲存如圖

datawhale爬蟲(正則入門and第乙個爬蟲)

1.正規表示式基礎介紹 import re result re.findall a.text 為乙個字元,輸出可以為abc aac 等等 result set result print result result re.findall a.text 如上,輸出3個,但是前後都有空格 result s...

python selenium模組 xpath定位

附w3xpath語法位址 總結 返回匹配到所有符合條件的第乙個節點,物件是 find element by xpath 返回匹配到所有符合條件的所有節點,物件是個list find elements by xpath 通過屬性定位 p 屬性 模糊定位 a contains text 文字 li co...

datawhale爬蟲task 1之正規表示式

任務一 3天 1.1 學習get與post請求 學習get與post請求,嘗試使用requests或者是urllib用get方法向發出乙個請求,並將其返回結果輸出。如果是斷開了網路,再發出申請,結果又是什麼。了解申請返回的狀態碼。了解什麼是請求頭,如何新增請求頭。1.2 正規表示式 學習什麼是正規表...