網頁結構的簡介和Xpath語法的入門教程

2022-02-08 08:35:13 字數 1315 閱讀 1551

相信很多小夥伴已經聽說過xpath,之前小編也寫過一篇關於xpath的文章,感興趣的小夥伴可以戳這篇文章如何利用xpath抓取京東網商品資訊以及python網路爬蟲四**擇器(正規表示式、bs4、xpath、css)總結。今天小編繼續給大家介紹一些xpath知識點,希望對大家的學習有幫助。

1、xpath讓我們可以使用一種類似於windows下的檔案路徑的方式,讓我們可以定位到html或者xml結構中的具體元素。xpath本身包含標一些準函式庫,可以讓我們的xpath語法更加強大。

2、在html結構中,有一定的層級關係,主要的關係包括:父節點、子節點、同胞節點(兄弟節點)、先輩節點、後代節點。

一般的,像類似於這種結構,稱之為乙個節點。如上圖,根據層次關係,我們可以知道節點是的父節點,相應的,節點是節點的子節點。同胞節點又叫兄弟節點,一般的處於同級層次的節點叫同胞節點,如上圖中的節點和第乙個

節點、177~181行的

3、理解這些節點之間的關係之後,可以方便我們更好的理解xpath語法,下表是部分常用的xpath語法。

這裡特別強調「/」和「//」的區別,「/」一般代表的某個元素的子節點,而不是全部的後代節點;而「//」一般代表的某個元素的後代節點,範圍比「/」代表的要更加廣泛一些。@符號後邊時常跟著class,代表選取名為class屬性的節點,比較常見。

4、下面針對具體的網頁原始碼,讓大家了解一下網頁結構。

如上圖中的紅色框框中,class為屬性,而等於號後邊的「grid-5」即為屬性值,有的時候節點內不只是乙個屬性,如上圖中的196行中,就有兩個屬性。

5、為了更加方便的定位到div或者其他節點下的標籤,我們需要繼續進一步的進行定位鎖定,下表是部分常用的xpath語法。

掌握了xpath語法知識之後,我們就可以通過xpath語法來進行編寫xpath表示式,以提取網頁上的目標資料。

scrapy基礎 之 xpath網頁結構

1 什麼是xpath xpath 是一門在 xml 文件中查詢資訊的語言。xml是一種類似於html的傳輸協議 2,節點 xpath 中,有七種型別的節點 元素 屬性 文字 命名空間 處理指令 注釋以及文件 根 節點。例項 harry potter j k.rowling 2005 29.99 解析...

XPath語法和lxml模組

xpath xml path language 是一門在xml和html文件中查詢資訊的語言,可用來在xml和html文件中對元素和屬性進行遍歷。chrome外掛程式xpath helper。安裝方法 開啟外掛程式伴侶,選擇外掛程式 選擇提取外掛程式內容到桌面,桌面上會多乙個資料夾 把資料夾放入想要...

XPath語法和lxml模組

xpath xml path language 是一門在xml和html文件中查詢資訊的語言,可用來在xml和html文件中對元素和屬性進行遍歷。chrome外掛程式xpath helper。firefox外掛程式try xpath。xpath 使用路徑表示式來選取 xml 文件中的節點或者節點集。...