申明:
python3.6
順利安裝
# 安裝from lxml import etree
wb_data = """
"""# 列印網頁原始碼
print("列印網頁原始碼")
html = etree.html(wb_data)
print(html)
result = etree.tostring(html)
print(result.decode("utf-8"))
# 獲取某個標籤的內容(基本使用),注意,獲取a標籤的所有內容,a後面就不用再加正斜槓,否則報錯。
print("\n\n獲取某個標籤的內容(基本使用),注意,獲取a標籤的所有內容,a後面就不用再加正斜槓,否則報錯。 寫法一:")
html = etree.html(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/@href')
for i in html_data:
print(i)
# 寫法二(直接在需要查詢內容的標籤後面加乙個/text()就行)
print("\n\n寫法二(直接在需要查詢內容的標籤後面加乙個/text()就行)")
html = etree.html(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/text()')
print(html)
for i in html_data:
print(i)
# 我們知道我們使用xpath拿到得都是乙個個的elementtree物件,所以如果需要查詢內容的話,還需要遍歷拿到資料的列表。,查到絕對路徑下a標籤屬性等於link2.html的內容。
print("\n\n我們知道我們使用xpath拿到得都是乙個個的elementtree物件,所以如果需要查詢內容的話,還需要遍歷拿到資料的列表。,查到絕對路徑下a標籤屬性等於link2.html的內容。")
html = etree.html(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()')
print(html_data)
for i in html_data:
print(i)
# 上面我們找到全部都是絕對路徑(每乙個都是從根開始查詢),下面我們查詢相對路徑,例如,查詢所有li標籤下的a標籤內容。
print("\n\n上面我們找到全部都是絕對路徑(每乙個都是從根開始查詢),下面我們查詢相對路徑,例如,查詢所有li標籤下的a標籤內容。")
html = etree.html(wb_data)
html_data = html.xpath('//li/a/text()')
print(html_data)
for i in html_data:
print(i)
網頁爬蟲php,php網頁爬蟲
網頁爬蟲 最簡單的使用,屬性都採用預設值 curl curl init output curl exec curl curl close curl echo output 稍微複雜一點的,對頁面進行操作 curl curl init curl setopt curl,curlopt url,可以動態...
網頁爬蟲 靜態網頁《一》
一 通過jsoup請求獲取 網頁審查元素。eg request path document doc jsoup.connect request path get 二 檢視需要扣取資料的標籤,通過日誌輸出 doc的body。eg log.v tag,body doc.body 三 檢視列印的日誌,找到...
android ios 網頁爬蟲
最近專案中需要用到公積金相關的資料,但是公積金那邊又沒有提供相關的開放介面供呼叫,因此動手把公積金的網頁抓下來對資料進行解析,拿到資料。廢話不多說,以昆明公積金為例進行分析下。準備 1.昆明公積金官網 2.抓包工具 httpwatch fiddler 4.html解析jar包 一般 抓資料流程分析 ...