這是乙個test.html檔案內容
以下是xpath使用方法
#coding:utf-8
import lxml
import lxml.etree
html=lxml.etree.parse("test.html")
print type(html)
res=html.xpath("//li")
print res
print len(res)#列表長度
print type(res) #元素列表
print type(res[0]) #樹的元素
res1=html.xpath("//li/@class") #同級目錄
print res1
res2=html.xpath("//li/@text")
print res2
res3=html.xpath("//li/a")#取出下一級
print res3
res4=html.xpath("//li/a/@href") #取出下一級的某個通有元素
print res4
res5=html.xpath("//li/a[@href=\"link3.html\"]") #取出下一級的某個通有元素
print res5
res6=html.xpath("//li//span") #取出下一級的某個通有元素
print res6
res6=html.xpath("//li//span/@class") #取出下一級的某個通有元素de class屬性
print res6
res7=html.xpath("//li/a//@class") #取出下一級的某個通有元素de class屬性
print res7
#res8=html.xpath("//li[1]") #第乙個
res8=html.xpath("//li[last()]") #最後乙個
print res8
res9=html.xpath("//li[last()]/a/@href") #最後乙個li下面的a中的href
print res9
res9=html.xpath("//li[last()-1]/a/@href") #最後乙個li下面的a中的href
print res9
res10=html.xpath("//*[@class=\"bold\"]") #最後乙個li下面的a中的href
print res10
res11=html.xpath("//*[@text=\"3\"]") #最後乙個li下面的a中的href
print res11
res11=html.xpath("//*[@text=\"3\"]/@class") #最後乙個li下面的a中的href
print res
python中xpath的使用
xpath在python的爬蟲學習中,起著舉足輕重的地位,對比正規表示式 re兩者可以完成同樣的工作,實現的功能也差不多,但xpath明顯比re具有優勢,在網頁分析上使re退居二線。xpath介紹 是什麼?全稱為xml path language一種小型的查詢語言 說道xpath是門語言,不得不說它...
XPath 常用函式
xpath函式 函式定義 函式名返回型別 不能用void 引數型別 常用函式 節點集函式 last 返回當前上下文中的最後乙個節點的位置號數。position 返回當前節點的位置的數字,位於第多少個。count node set 返回節點集node set中的節點數。id mark 根據在dtd中宣...
xpath常用介紹
介紹下什麼是xpath 1.xpath使用路徑表示式在xml和html中進行導航 2.xpath中包含了一些標準函式庫 3.xpath是乙個w3c的標準 xpath中可以像css的選擇器一樣使用,能夠在頁面頁面當中選擇出來想要選擇的元素 下面列出了一些xpath的常用的選擇 article 選取所有...