網頁採集中Xpath簡單使用方法

2021-10-09 18:57:44 字數 787 閱讀 2227

xpath在簡數採集平台中是定位獲取頁面html標籤或者標籤中的內容。

例子:/html/body/p/a

上面xpath路徑意思是獲取html標籤下的子標籤body,body下的子標籤p,p下的子標籤a,獲取結果是對應下圖的第10行a標籤;

例子:/html/body/p//a

上面xpath路徑意思是獲取html標籤下的子標籤body,body下的子標籤p,p下的所有標籤a,獲取結果是對應下圖的第10行和12行的a標籤;

例子:/html/body/p/a[2]

上面xpath路徑意思是獲取html標籤下的子標籤body,body下的子標籤p,p下的第二個標籤a,獲取結果是對應下圖的第11行的a標籤;

使用phpQuery輕鬆採集網頁內容

phpquery是乙個基於php的服務端開源專案,它可以讓php開發人員輕鬆處理dom文件內容,比如獲取某新聞 的頭條資訊。更有意思的是,它採用了jquery的思想,你可以像使用jquery一樣處理頁面內容,獲取你想要的頁面資訊。採集頭條 include phpquery phpquery.php ...

php使用xpath來進行採集頁面的內容

使用過xpath來快速抓取頁面上的內容,可以使用谷歌瀏覽器擴充套件來測試xpath表示式。html file get contents 壓縮 dom new domdocument 從乙個字串載入html dom loadhtml html 使該html規範化 dom normalize 用domx...

XPath的簡單介紹以及使用

xpath 是一門在 xml 文件中查詢資訊的語言。xpath它可以用來在 xml 文件中對元素和屬性進行遍歷。要使用xpath首先需要安裝lxml,在終端輸入如下命令即可 pip install lxml 什麼是xpath?首先先來介紹下xml,它是用來儲存和傳輸資料使用的。和html的不同有以下...