XPath XPath 網頁爬蟲

2021-09-12 06:58:08 字數 1495 閱讀 5510

申明:

python3.6

順利安裝

# 安裝

from lxml import etree

wb_data = """

"""# 列印網頁原始碼

print("列印網頁原始碼")

html = etree.html(wb_data)

print(html)

result = etree.tostring(html)

print(result.decode("utf-8"))

# 獲取某個標籤的內容(基本使用),注意,獲取a標籤的所有內容,a後面就不用再加正斜槓,否則報錯。

print("\n\n獲取某個標籤的內容(基本使用),注意,獲取a標籤的所有內容,a後面就不用再加正斜槓,否則報錯。 寫法一:")

html = etree.html(wb_data)

html_data = html.xpath('/html/body/div/ul/li/a/@href')

for i in html_data:

print(i)

# 寫法二(直接在需要查詢內容的標籤後面加乙個/text()就行)

print("\n\n寫法二(直接在需要查詢內容的標籤後面加乙個/text()就行)")

html = etree.html(wb_data)

html_data = html.xpath('/html/body/div/ul/li/a/text()')

print(html)

for i in html_data:

print(i)

# 我們知道我們使用xpath拿到得都是乙個個的elementtree物件,所以如果需要查詢內容的話,還需要遍歷拿到資料的列表。,查到絕對路徑下a標籤屬性等於link2.html的內容。

print("\n\n我們知道我們使用xpath拿到得都是乙個個的elementtree物件,所以如果需要查詢內容的話,還需要遍歷拿到資料的列表。,查到絕對路徑下a標籤屬性等於link2.html的內容。")

html = etree.html(wb_data)

html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()')

print(html_data)

for i in html_data:

print(i)

# 上面我們找到全部都是絕對路徑(每乙個都是從根開始查詢),下面我們查詢相對路徑,例如,查詢所有li標籤下的a標籤內容。

print("\n\n上面我們找到全部都是絕對路徑(每乙個都是從根開始查詢),下面我們查詢相對路徑,例如,查詢所有li標籤下的a標籤內容。")

html = etree.html(wb_data)

html_data = html.xpath('//li/a/text()')

print(html_data)

for i in html_data:

print(i)

網頁爬蟲php,php網頁爬蟲

網頁爬蟲 最簡單的使用,屬性都採用預設值 curl curl init output curl exec curl curl close curl echo output 稍微複雜一點的,對頁面進行操作 curl curl init curl setopt curl,curlopt url,可以動態...

網頁爬蟲 靜態網頁《一》

一 通過jsoup請求獲取 網頁審查元素。eg request path document doc jsoup.connect request path get 二 檢視需要扣取資料的標籤,通過日誌輸出 doc的body。eg log.v tag,body doc.body 三 檢視列印的日誌,找到...

android ios 網頁爬蟲

最近專案中需要用到公積金相關的資料,但是公積金那邊又沒有提供相關的開放介面供呼叫,因此動手把公積金的網頁抓下來對資料進行解析,拿到資料。廢話不多說,以昆明公積金為例進行分析下。準備 1.昆明公積金官網 2.抓包工具 httpwatch fiddler 4.html解析jar包 一般 抓資料流程分析 ...