# -*- coding: utf-8 -*-
#1.選取節點
#獲取所有的div元素 //div
#/代表獲取根節點的直接子元素
#獲取所有帶有id屬性的div //div[@id]
#2.謂詞(索引從1開始)
#獲取body下面的第乙個/最後乙個div元素/前兩個 //body/div[1] //body/div[last()] //body/div[position<3]
#獲取具有class='price'屬性的div標籤 //div[@class='price']
#3.萬用字元
# * |
#4.運算子 and or
import requests
from lxml import etree
url = ""
resp = requests.get(url)
resp.encoding="utf-8"
html = etree.html(resp.text)
#獲取所有a標籤的href屬性
linklist = html.xpath("//a/@href")
for item in linklist:
print(item)
xpath提取所有節點文字
解析 xpath提取所有節點文字 我左青龍,右白虎,老牛在當中,龍頭在胸口。使用xpath的string usr bin env python from scrapy.selector import selector text 我左青龍,右白虎,老牛在當中,龍頭在胸口。s selector text...
WordPress 撰寫文章頁面顯示所有標籤
wordpress 撰寫文章時,點選 從常用標籤中選擇 只顯示45個常用的標籤,很多情況下還需手工再次輸入標籤,這樣的限制感覺很不方便,通過下面的方法可以解除這個限制,顯示全部標籤。以wordpress 3.5.1版為例 其它版本可能有所不同 開啟wordpress程式wp admin includ...
scrapy使用用Xpath提取深層標籤
在使用scrapy框架做爬蟲時,有兩種方式對標籤內容進行提取 css和xpath。基本的標籤內容,屬性提取都很容易。但對於多層巢狀的標籤,如何提取到最裡層的內容呢?舉個栗子 網頁html內容是 id test helloworld b p 如何一下子提取到hello world 呢?用css的話需要...