xpath是xml路徑語言,它是一種來確定xml文件某部分位置的語言html的一般格式html屬於xml
>
>
表題資訊
head
>
>
我們網頁中看到的內容
body
>
html
>
表示式
描述/標籤
選中根,或根下的第一層標籤
//標籤
全域性匹配的標籤
.點前節點
…當前節點的父節點
*選擇所有標籤
text()
選中文字
@屬性選中指定屬性的節點
以下面**為例「/」 的使用scrapy shell
in [1]: response.xpath(
'/head'
)
out[1]: [
]in [2]: response.xpath(
'/html'
)
out[2]: [
'/html' data=
'>
]#可以觀察到,head是空的,html有內容,因為在跟節點下只有乙個html的標籤
「//」 的使用in [8]: response.xpath(
'//div'
)
out[8]:
['//div' data=
'\n ...'
>,
'//div' data=
'\n >,
。。。省略。。。
選取書籍title的內容in [5]: response.xpath(
"//article/h3/a/@title"
).extract(
)
out[5]:
['a light in the attic',
'tipping the velvet',
'soumission',
'sharp objects',
'sapiens: a brief history of humankind',
'the requiem red',
'the dirty little secrets of getting your dream job',
'the coming woman: a novel based on the life of the infamous feminist, victoria woodhull',
。。。省略。。。
xpath中函式的使用:w3cschool
爬蟲基礎之Xpath!
參見 參見div 1 獲取本頁面第乙個div div last 獲取本頁面最後乙個div div last 1 獲取倒數第二個div div 1 div last 獲取第乙個div和最後乙個div 從根節點擊取 從匹配選擇的當前節點擊擇文件中的節點,而不考慮它們的位置 div class title...
scrapy基礎 之 xpath網頁結構
1 什麼是xpath xpath 是一門在 xml 文件中查詢資訊的語言。xml是一種類似於html的傳輸協議 2,節點 xpath 中,有七種型別的節點 元素 屬性 文字 命名空間 處理指令 注釋以及文件 根 節點。例項 harry potter j k.rowling 2005 29.99 解析...
python 爬蟲之xpath用法
xpath全稱為xml path language一種小型的查詢語言,在爬蟲中,我們其實就是拿它來搜尋html文件,僅此而已。而網頁內容只有通過解析才能進行搜尋,所以使用xpath時,需要引入lxml庫,這個庫就是來解析網頁,協助xpath進行搜尋的。lxml庫的安裝,可以直接使用 pip3 ins...