使用 XPath 解析 HTML 文件

2021-08-02 08:16:54 字數 3968 閱讀 6280

原文 : 

使用xpath解析html文件/

xpath 的全稱是 xml path language,即 xml 路徑語言,它是一種在結構化文件(比如 xml 和 html 文件)中定位資訊的語言,關於 xpath 的介紹可以參考 

後面我們將以下面的 html 文件介紹 xpath 的使用。

下表是 xpath 常用的語法,例項對應的是上面的 html 文件。

表示式描述

例項結果

nodename

選取此節點的所有子節點

body

選取 body 元素的所有子節點

/從根節點擊取

/html

選取根元素 html

//匹配選擇的當前節點,不考慮位置

//img

選取所有 img 元素,而不管它們在文件的位置

.選取當前節點

./img

選取當前節點下的 img 節點

..選取當前節點的父節點

../img

選取當前節點的父節點下的 title

@選取屬性

//a[@href=」image1.html」]

選取所有 href 屬性為 「image1.html」 的 a 節點

//a/@href

獲取所有 a 節點的 href 屬性的值

謂語用來查詢某個特定的節點或者包含某個指定的值的節點,謂語嵌在方括號中。

路徑表示式

結果//body//a[1]

選取屬於 body 子元素的第乙個 a 元素

//body//a[last()]

選取屬於 body 子元素的最好乙個 a 元素

//a[@href]

選取所有擁有名為 href 的屬性的 a 元素

//a[@href=』image2.html』]

選取所有 href 屬性等於 「image2.html」 的 a 元素

python中使用xpath需要安裝相應的庫,這裡推薦使用 lxml 庫。

**示例:

輸出結果如下:

要注意的是,如果 xpath() 找到了匹配的資料,返回的結果是乙個陣列,不管是乙個還是多個,比如結果中的title

爬蟲6 使用xpath語法,解析HTML

簡述 beautifulsoup 外,python常用的解析html xml的第三方庫 lxml,lxml中語法為xpath 例項1 提取 某點 月票榜中部分作品的作者 列表 1.使用lxml中的etree提取響應資料中的html標籤樹。2.使用xpath語法來解析標籤樹。lxml使用xpath語法...

vbs 解析 html 文件

關於vbs採集,網上流行比較多的方法都是正則,其實 htmlfile 可以解析 html 但如果 designmode 沒開啟的話,有時候會包安全提示資訊。但是開啟 designmode 預言家晚報 分享的方法 的話,所有js都不會被執行,只是乾乾淨淨的dom文件,所以在逼不得已的情況下開啟 des...

vbs 解析 html 文件

關於vbs採集,網上流行比較多的方法都是正則,其實 htmlfile 可以解析 html 但如果 designmode 沒開啟的話,有時候會包安全提示資訊。但是開啟 designmode 預言家晚報 分享的方法 的話,所有js都不會被執行,只是乾乾淨淨的dom文件,所以在逼不得已的情況下開啟 des...