1.xpath使用路徑表示式在xml和html中進行導航
2.xpath包含標準函式庫
3.xpath是乙個w3c的標準
1.父節點
2.子節點
3.同胞節點
4.先輩節點
5.後代節點
表示式s說明
article
選取所有article元素的子節點
/article
選取根元素article
article/a
選取所有屬於article的子元素a的元素
//div
選取所有div子元素(不論出現在文件任何地方)
/article//div
選取所有屬於article元素的後代div元素。不管它出現在article元素之下的任何位置
//@class
選取所有名為class的屬性
/article/div[1]
選取屬於article子元素的第乙個div元素
/article/div[last()]
選取屬於article子元素的最後乙個div元素
/article/div[last()-1]
選取屬於article子元素的倒數第二個div元素
//div[@lang]
選取所有擁有lang熟悉的div元素
//div[@lang='eng']
選取所有lang屬性為eng的元素
/div/*
選取屬於div元素的所有子節點
//*選取所有元素
//div[@*]
選取所有帶屬性div元素
/div/a|//div/p
選取所有div元素的a和p元素
//span|//ul
選取文件中的span和ul元素
article/div/p|//span
選取所有屬於article元素的div元素的p元素,以及文件中所有的span元素
資料的查詢和提取 2 xpath解析庫的使用
在上一節,我們介紹了正規表示式的使用,但是當我們提取資料的限制條件增多的時候,正規表示式會變的十分的複雜,出一丁點錯就提取不出來東西了。但python已經為我們提供了許多用於解析資料的庫,接 下來幾篇部落格就給大家簡單介紹一下xpath beautiful soup以及pyquery的使用。今天首先...
python3 爬蟲 XPath庫的使用
xpath常用規則 小技巧 生成xpath,只需右鍵copy選擇copy xpath即可,截圖截不下來,自行嘗試 屬性定位 找到class屬性值為song的div標籤 div class song 層級 索引定位 找到class屬性值為tang的div的直系子標籤ul下的第二個子標籤li下的直系子標...
爬蟲 urllib2庫的使用
所謂網頁抓取,就是把url位址中指定的網路資源從網路流中讀取出來,儲存到本地。在python中有很多庫可以用來抓取網頁,我們先學習urllib2。urllib2 官方文件 urllib2 原始碼 urllib2在 python3.x 中被改為urllib.request 我們先來段 urllib2 ...