小白爬蟲學習 Xpath定位資訊 舉一反三

2021-10-07 16:13:31 字數 1924 閱讀 4577

斷斷續續學了好多次爬蟲,始終沒抓到重點,最近兩天終於摸到點門路,發現定位資訊是最重要的,定位好了,再借助解析庫就可以提取想要的資訊了。

url = 「你爬取資訊的**」

headers = 請求頭

import requests

r0 = requests.get(url,headers = headers)

s_code = r0.status_code

這裡說一下檢視網頁源**要選f12方式,此處看比右鍵直接檢視源**會好找規律點,可以通過摺疊開啟等方式,更快定位資訊。

#匯入解析庫

from lxml import etree

#測試是否狀態碼為200,是的話才能爬取

if s_code ==

200:

html = etree.html(r0.text)

else

:pass

#定位總的位置

datas = html.xpath(

"得看網頁源**來寫"

)

一般會是這個樣子的:

for data in datas:

dataa = data.xpath(

"定位路徑/text()"

)#抓取非類資訊

datab = data.xpath(

"定位路徑/"

)#類的一般會有 img吧

print

(dataa,datab)

#或者可以選擇儲存,這裡為了突出簡化學習過程,就用print了

大概是以上這個樣子的過程。

1.豆瓣top250電影第一頁

主要看怎麼定位資訊吧 過程如圖

2.貓眼電影top100第一頁

3.世界人均gpd排名

)#這裡只提取排名的 國家名字

#需要其他欄位的自己新增

print

(country)

網頁爬蟲XPath 定位

最近使用到了xpath進行爬蟲標籤的定位,就將常用的語法總結了一下,方便下次使用時做參考。倒數第二個 book 元素 bookstore book last 1 除了第乙個 book 元素 bookstore book position 1 price 元素的值須大於 35.00 且不等於 38.0...

爬蟲 xpath學習

xpath解析 最常用且最便捷高效的一種解析方式,具有通用性 xpath解析的原理 一 例項化乙個etree物件,且需要將被解析的頁面原始碼資料載入到該物件中 二 呼叫etree物件中的xpath方法結合著xpath表示式實現標籤定位和內容的捕獲 環境的安裝 pip install lxml 如何例...

爬蟲xpath學習

xpath是在xml文件中搜尋內容的一門語言 html是xml的子集 xml 1野花遍地 1.23 臭 腐周 強 周芷若周杰倫 蔡依林惹了 胖胖陳胖胖不陳 from lxml import etree tree etree.xml xml result tree.xpath book name 表示...