常見的爬蟲分析庫(2) xpath語法

2022-06-18 21:12:07 字數 973 閱讀 6815

1.xpath使用路徑表示式在xml和html中進行導航

2.xpath包含標準函式庫

3.xpath是乙個w3c的標準

1.父節點

2.子節點

3.同胞節點

4.先輩節點

5.後代節點

表示式s說明

article 

選取所有article元素的子節點

/article 

選取根元素article

article/a

選取所有屬於article的子元素a的元素

//div 

選取所有div子元素(不論出現在文件任何地方)

/article//div

選取所有屬於article元素的後代div元素。不管它出現在article元素之下的任何位置

//@class

選取所有名為class的屬性

/article/div[1]

選取屬於article子元素的第乙個div元素

/article/div[last()]

選取屬於article子元素的最後乙個div元素

/article/div[last()-1]

選取屬於article子元素的倒數第二個div元素

//div[@lang]

選取所有擁有lang熟悉的div元素

//div[@lang='eng']

選取所有lang屬性為eng的元素

/div/*

選取屬於div元素的所有子節點

//*選取所有元素

//div[@*]

選取所有帶屬性div元素

/div/a|//div/p

選取所有div元素的a和p元素

//span|//ul

選取文件中的span和ul元素

article/div/p|//span

選取所有屬於article元素的div元素的p元素,以及文件中所有的span元素

資料的查詢和提取 2 xpath解析庫的使用

在上一節,我們介紹了正規表示式的使用,但是當我們提取資料的限制條件增多的時候,正規表示式會變的十分的複雜,出一丁點錯就提取不出來東西了。但python已經為我們提供了許多用於解析資料的庫,接 下來幾篇部落格就給大家簡單介紹一下xpath beautiful soup以及pyquery的使用。今天首先...

python3 爬蟲 XPath庫的使用

xpath常用規則 小技巧 生成xpath,只需右鍵copy選擇copy xpath即可,截圖截不下來,自行嘗試 屬性定位 找到class屬性值為song的div標籤 div class song 層級 索引定位 找到class屬性值為tang的div的直系子標籤ul下的第二個子標籤li下的直系子標...

爬蟲 urllib2庫的使用

所謂網頁抓取,就是把url位址中指定的網路資源從網路流中讀取出來,儲存到本地。在python中有很多庫可以用來抓取網頁,我們先學習urllib2。urllib2 官方文件 urllib2 原始碼 urllib2在 python3.x 中被改為urllib.request 我們先來段 urllib2 ...