斷斷續續學了好多次爬蟲,始終沒抓到重點,最近兩天終於摸到點門路,發現定位資訊是最重要的,定位好了,再借助解析庫就可以提取想要的資訊了。
url = 「你爬取資訊的**」
headers = 請求頭
import requests
r0 = requests.get(url,headers = headers)
s_code = r0.status_code
這裡說一下檢視網頁源**要選f12方式,此處看比右鍵直接檢視源**會好找規律點,可以通過摺疊開啟等方式,更快定位資訊。
#匯入解析庫
from lxml import etree
#測試是否狀態碼為200,是的話才能爬取
if s_code ==
200:
html = etree.html(r0.text)
else
:pass
#定位總的位置
datas = html.xpath(
"得看網頁源**來寫"
)
一般會是這個樣子的:
for data in datas:
dataa = data.xpath(
"定位路徑/text()"
)#抓取非類資訊
datab = data.xpath(
"定位路徑/"
)#類的一般會有 img吧
print
(dataa,datab)
#或者可以選擇儲存,這裡為了突出簡化學習過程,就用print了
大概是以上這個樣子的過程。
1.豆瓣top250電影第一頁
主要看怎麼定位資訊吧 過程如圖
2.貓眼電影top100第一頁
3.世界人均gpd排名
)#這裡只提取排名的 國家名字
#需要其他欄位的自己新增
(country)
網頁爬蟲XPath 定位
最近使用到了xpath進行爬蟲標籤的定位,就將常用的語法總結了一下,方便下次使用時做參考。倒數第二個 book 元素 bookstore book last 1 除了第乙個 book 元素 bookstore book position 1 price 元素的值須大於 35.00 且不等於 38.0...
爬蟲 xpath學習
xpath解析 最常用且最便捷高效的一種解析方式,具有通用性 xpath解析的原理 一 例項化乙個etree物件,且需要將被解析的頁面原始碼資料載入到該物件中 二 呼叫etree物件中的xpath方法結合著xpath表示式實現標籤定位和內容的捕獲 環境的安裝 pip install lxml 如何例...
爬蟲xpath學習
xpath是在xml文件中搜尋內容的一門語言 html是xml的子集 xml 1野花遍地 1.23 臭 腐周 強 周芷若周杰倫 蔡依林惹了 胖胖陳胖胖不陳 from lxml import etree tree etree.xml xml result tree.xpath book name 表示...