lxml和xpath結合使用

2021-08-20 16:29:32 字數 1846 閱讀 4583

lxml和xpath結合使用主要有以下5個方面內容:

# 1.獲取所有的tr標籤

# 2.獲取第2個標籤

# 3.獲取所有class 等於event的tr標籤

# 4.獲取所有a標籤下的href屬性

# 5.或許所有的職位資訊(純文字)

# 6.get方法也可以得到屬性:img.get('data-original'),獲取img的data-original屬性的值

例項**如下:

# -- coding:utf-8 --

from lxml import etree

parser = etree.htmlparser(encoding="utf-8")

html = etree.parse("baudu.html", parser=parser)

# 1.獲取所有的tr標籤

# //tr

# xpath返回的是乙個列表

def return_trs():

trs = html.xpath("//tr")

for tr in trs:

print tr

# 2.獲取第2個標籤

def return_tr():

tr = html.xpath("//tr[2]")[0]

print type(tr)

print tr

print etree.tostring(tr, encoding="utf-8").decode("utf-8")

# 3.獲取所有class 等於event的tr標籤

def class_tr():

trs = html.xpath("//tr[@class='event']")

print trs

# 4.獲取所有a標籤下的href屬性

def a_href():

alists = html.xpath("//a/@href")

for a in alists:

print a

print "d:\\python2.7\\"+a

# 5.或許所有的職位資訊(純文字)

positions =

def position_text():

trs = html.xpath("//tr[position()>1]")

for tr in trs:

# 在某個標籤下執行xpath函式,獲取這個標籤下的子孫元素,那麼在「//」前面加乙個「.」,即「//.」

lxml結合xpath注意事項

1.使用 xpath 語法。應該使用 element.xpath 方法。來執行xpath的選擇。示例 如下 trs html.xpath tr position 1 xpath函式 返回來的永遠是乙個列表。2.獲取某個標籤的屬性 href html.xpath a href 獲取a標籤的href屬性...

XPath語法和lxml模組

xpath xml path language 是一門在xml和html文件中查詢資訊的語言,可用來在xml和html文件中對元素和屬性進行遍歷。chrome外掛程式xpath helper。安裝方法 開啟外掛程式伴侶,選擇外掛程式 選擇提取外掛程式內容到桌面,桌面上會多乙個資料夾 把資料夾放入想要...

XPath語法和lxml模組

xpath xml path language 是一門在xml和html文件中查詢資訊的語言,可用來在xml和html文件中對元素和屬性進行遍歷。chrome外掛程式xpath helper。firefox外掛程式try xpath。xpath 使用路徑表示式來選取 xml 文件中的節點或者節點集。...