參見
參見div[1]
獲取本頁面第乙個div
div[last()]
獲取本頁面最後乙個div
div[last()-1]
獲取倒數第二個div
div[1] | div[last()]
獲取第乙個div和最後乙個div
/
從根節點擊取
//
從匹配選擇的當前節點擊擇文件中的節點,而不考慮它們的位置
div[@class='title']
獲取屬性class值為title的所有div
div[@id='title']
獲取屬性id值為title的所有div
span[contains(@class,'vote-post-up')]
當前span的class值有很多個,但我只想用其中的某乙個值來定位它,則使用contains
函式
1 贊
參考資料: 爬蟲基礎 XPath語法總結
xpath xml path language 是一門在 xml 文件中查詢資訊的語言,可用來在 xml 文件中對元素和屬性進行遍歷。w3school官方文件 開源的xpath表示式編輯工具 xmlquire xml格式檔案可用 chrome外掛程式 xpath helper firefox外掛程式...
python 爬蟲之xpath用法
xpath全稱為xml path language一種小型的查詢語言,在爬蟲中,我們其實就是拿它來搜尋html文件,僅此而已。而網頁內容只有通過解析才能進行搜尋,所以使用xpath時,需要引入lxml庫,這個庫就是來解析網頁,協助xpath進行搜尋的。lxml庫的安裝,可以直接使用 pip3 ins...
爬蟲之正則和xpath
常用正規表示式回顧 單字元 除換行以外所有字元 aoe a w 匹配集合中任意乙個字元 d 數字 0 9 d 非數字 w 數字 字母 下劃線 中文 w 非 w s 所有的空白字元包,括空格 製表符 換頁符等等。等價於 f n r t v s 非空白 數量修飾 任意多次 0 至少1次 1 可有可無 0...