使用 XPath 解析 HTML 文件

原文：

使用xpath解析html文件/

xpath 的全稱是 xml path language，即 xml 路徑語言，它是一種在結構化文件（比如 xml 和 html 文件）中定位資訊的語言，關於 xpath 的介紹可以參考

後面我們將以下面的 html 文件介紹 xpath 的使用。

下表是 xpath 常用的語法，例項對應的是上面的 html 文件。

表示式描述

例項結果

nodename

選取此節點的所有子節點

body

選取 body 元素的所有子節點

/從根節點擊取

/html

選取根元素 html

//匹配選擇的當前節點，不考慮位置

//img

選取所有 img 元素，而不管它們在文件的位置

.選取當前節點

./img

選取當前節點下的 img 節點

..選取當前節點的父節點

../img

選取當前節點的父節點下的 title

@選取屬性

//a[@href=」image1.html」]

選取所有 href 屬性為「image1.html」的 a 節點

//a/@href

獲取所有 a 節點的 href 屬性的值

謂語用來查詢某個特定的節點或者包含某個指定的值的節點，謂語嵌在方括號中。

路徑表示式

結果//body//a[1]

選取屬於 body 子元素的第乙個 a 元素

//body//a[last()]

選取屬於 body 子元素的最好乙個 a 元素

//a[@href]

選取所有擁有名為 href 的屬性的 a 元素

//a[@href=』image2.html』]

選取所有 href 屬性等於「image2.html」的 a 元素

在python中使用xpath需要安裝相應的庫，這裡推薦使用 lxml 庫。

**示例：

輸出結果如下：

要注意的是，如果 xpath() 找到了匹配的資料，返回的結果是乙個陣列，不管是乙個還是多個，比如結果中的title。

爬蟲6 使用xpath語法，解析HTML

簡述 beautifulsoup 外，python常用的解析html xml的第三方庫 lxml，lxml中語法為xpath 例項1 提取某點月票榜中部分作品的作者列表 1.使用lxml中的etree提取響應資料中的html標籤樹。2.使用xpath語法來解析標籤樹。lxml使用xpath語法...

vbs 解析 html 文件

關於vbs採集，網上流行比較多的方法都是正則，其實 htmlfile 可以解析 html 但如果 designmode 沒開啟的話，有時候會包安全提示資訊。但是開啟 designmode 預言家晚報分享的方法的話，所有js都不會被執行，只是乾乾淨淨的dom文件，所以在逼不得已的情況下開啟 des...

使用 XPath 解析 HTML 文件

爬蟲6 使用xpath語法，解析HTML

vbs 解析 html 文件

vbs 解析 html 文件

相關推薦