小白爬蟲學習 Xpath定位資訊舉一反三

斷斷續續學了好多次爬蟲，始終沒抓到重點，最近兩天終於摸到點門路，發現定位資訊是最重要的，定位好了，再借助解析庫就可以提取想要的資訊了。

url = 「你爬取資訊的**」

headers = 請求頭

import requests
r0 = requests.get(url,headers = headers)
s_code = r0.status_code

這裡說一下檢視網頁源**要選f12方式，此處看比右鍵直接檢視源**會好找規律點，可以通過摺疊開啟等方式，更快定位資訊。

#匯入解析庫
from lxml import etree
#測試是否狀態碼為200，是的話才能爬取
if s_code ==
200:
html = etree.html(r0.text)
else
:pass
#定位總的位置
datas = html.xpath(
"得看網頁源**來寫"
)

一般會是這個樣子的：

for data in datas:
dataa = data.xpath(
"定位路徑/text()"
)#抓取非類資訊
datab = data.xpath(
"定位路徑/"
)#類的一般會有 img吧
print
(dataa,datab)
#或者可以選擇儲存，這裡為了突出簡化學習過程，就用print了

大概是以上這個樣子的過程。

1.豆瓣top250電影第一頁

主要看怎麼定位資訊吧過程如圖

2.貓眼電影top100第一頁

3.世界人均gpd排名

)#這裡只提取排名的國家名字

#需要其他欄位的自己新增

(country)

網頁爬蟲XPath 定位

最近使用到了xpath進行爬蟲標籤的定位，就將常用的語法總結了一下，方便下次使用時做參考。倒數第二個 book 元素 bookstore book last 1 除了第乙個 book 元素 bookstore book position 1 price 元素的值須大於 35.00 且不等於 38.0...

爬蟲 xpath學習

xpath解析最常用且最便捷高效的一種解析方式，具有通用性 xpath解析的原理一例項化乙個etree物件，且需要將被解析的頁面原始碼資料載入到該物件中二呼叫etree物件中的xpath方法結合著xpath表示式實現標籤定位和內容的捕獲環境的安裝 pip install lxml 如何例...

爬蟲xpath學習

xpath是在xml文件中搜尋內容的一門語言 html是xml的子集 xml 1野花遍地 1.23 臭腐周強周芷若周杰倫蔡依林惹了胖胖陳胖胖不陳 from lxml import etree tree etree.xml xml result tree.xpath book name 表示...

小白爬蟲學習 Xpath定位資訊 舉一反三

網頁爬蟲XPath 定位

爬蟲 xpath學習

爬蟲xpath學習

相關推薦

小白爬蟲學習 Xpath定位資訊舉一反三