Xpath學習筆記

2021-08-27 13:53:59 字數 1079 閱讀 2987

from lxml import etree

import os

os.path.abspath('.')

text='''

first item

'''html1 = etree.html(text1)

result = html1.xpath('//li[contains(@class,"li") and @name="item"]/a/text()')#選取即包含li屬性,而且name=item的a節點的文字,用的and連線。

print(result)

#按序選擇(使用索引),比如下面在眾多li節點中把需要的給取出來

result = html.xpath('//li[1]/a/text()')

print(result)

result = html.xpath('//li[last()]/a/text()')

print(result)

result = html.xpath('//li[position()<3]/a/text()')

print(result)

result = html.xpath('//li[last()-2]/a/text()')

print(result)

#使用節點器選擇節點

result = html.xpath('//li[1]/ancestor::*') #ancestor是選父親節點,*是所有。

print(result)

result = html.xpath('//li[1]/ancestor::div')#選標籤為div的父親節點。

print(result)

result = html.xpath('//li[1]/attribute::*')#獲取本節點的所有屬性

print(result)

#類似,child是選直接子節點,descendant是獲取所有子節點,following是獲取當前節點後的所有節點,,following-sibling 是獲取當前節點之後的同級節點。

遇到了從檔案讀取text那報錯,而且不會解決,群裡面說是為了方便才寫./的,但還是不咋懂,以後再看。

XPath學習筆記

xpath 是一門在 xml 文件中查詢資訊的語言。xpath 用於在 xml 文件中通過元素和屬性進行導航。xpath包含有乙個標準的函式庫,是xslt中的主要元素,同時也是乙個w3c標準。若把xml用樹來表示,那麼根節點最上層的節點,根節點是唯一的。樹上其它的所有元素節點都是子節點或後代節點。元...

Xpath學習筆記

在 xpath 中,有七種型別的節點 元素 屬性 文字 命名空間 處理指令 注釋以及文件節點 或稱為根節點 lang eng harry pottertitle 29.99price book lang eng learning xmltitle 39.95price book bookstore ...

XPath學習筆記

使用lxml對爬取的網頁資料進行解析時,最長使用的方式是xpath,在scrapy爬蟲框架中也提供了相應的函式呼叫.xpath 和.css css 的方式實質上底層仍然被轉換成xpath方式進行處理。首先是xpath的基本使用方法,如圖 html doc 這是乙個鏈結 美女,約嗎?兄弟,你好嗎 se...