XPath XPath 網頁爬蟲

申明：

python3.6

順利安裝

# 安裝
from lxml import etree
wb_data = """
"""# 列印網頁原始碼
print("列印網頁原始碼")
html = etree.html(wb_data)
print(html)
result = etree.tostring(html)
print(result.decode("utf-8"))
# 獲取某個標籤的內容(基本使用)，注意，獲取a標籤的所有內容，a後面就不用再加正斜槓，否則報錯。
print("\n\n獲取某個標籤的內容(基本使用)，注意，獲取a標籤的所有內容，a後面就不用再加正斜槓，否則報錯。 寫法一：")
html = etree.html(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/@href')
for i in html_data:
print(i)
# 寫法二（直接在需要查詢內容的標籤後面加乙個/text()就行）
print("\n\n寫法二（直接在需要查詢內容的標籤後面加乙個/text()就行）")
html = etree.html(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/text()')
print(html)
for i in html_data:
print(i)
# 我們知道我們使用xpath拿到得都是乙個個的elementtree物件，所以如果需要查詢內容的話，還需要遍歷拿到資料的列表。,查到絕對路徑下a標籤屬性等於link2.html的內容。
print("\n\n我們知道我們使用xpath拿到得都是乙個個的elementtree物件，所以如果需要查詢內容的話，還需要遍歷拿到資料的列表。,查到絕對路徑下a標籤屬性等於link2.html的內容。")
html = etree.html(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()')
print(html_data)
for i in html_data:
print(i)
# 上面我們找到全部都是絕對路徑（每乙個都是從根開始查詢），下面我們查詢相對路徑，例如，查詢所有li標籤下的a標籤內容。
print("\n\n上面我們找到全部都是絕對路徑（每乙個都是從根開始查詢），下面我們查詢相對路徑，例如，查詢所有li標籤下的a標籤內容。")
html = etree.html(wb_data)
html_data = html.xpath('//li/a/text()')
print(html_data)
for i in html_data:
print(i)

網頁爬蟲php,php網頁爬蟲

網頁爬蟲最簡單的使用,屬性都採用預設值 curl curl init output curl exec curl curl close curl echo output 稍微複雜一點的，對頁面進行操作 curl curl init curl setopt curl,curlopt url,可以動態...

網頁爬蟲靜態網頁《一》

一通過jsoup請求獲取網頁審查元素。eg request path document doc jsoup.connect request path get 二檢視需要扣取資料的標籤，通過日誌輸出 doc的body。eg log.v tag,body doc.body 三檢視列印的日誌，找到...

android ios 網頁爬蟲

最近專案中需要用到公積金相關的資料，但是公積金那邊又沒有提供相關的開放介面供呼叫，因此動手把公積金的網頁抓下來對資料進行解析，拿到資料。廢話不多說，以昆明公積金為例進行分析下。準備 1.昆明公積金官網 2.抓包工具 httpwatch fiddler 4.html解析jar包一般抓資料流程分析 ...

XPath XPath 網頁爬蟲

網頁爬蟲php,php網頁爬蟲

網頁爬蟲 靜態網頁《一》

android ios 網頁爬蟲

相關推薦

網頁爬蟲靜態網頁《一》