lxml和xpath結合使用主要有以下5個方面內容:
# 1.獲取所有的tr標籤
# 2.獲取第2個標籤
# 3.獲取所有class 等於event的tr標籤
# 4.獲取所有a標籤下的href屬性
# 5.或許所有的職位資訊(純文字)
# 6.get方法也可以得到屬性:img.get('data-original'),獲取img的data-original屬性的值
例項**如下:
# -- coding:utf-8 --
from lxml import etree
parser = etree.htmlparser(encoding="utf-8")
html = etree.parse("baudu.html", parser=parser)
# 1.獲取所有的tr標籤
# //tr
# xpath返回的是乙個列表
def return_trs():
trs = html.xpath("//tr")
for tr in trs:
print tr
# 2.獲取第2個標籤
def return_tr():
tr = html.xpath("//tr[2]")[0]
print type(tr)
print tr
print etree.tostring(tr, encoding="utf-8").decode("utf-8")
# 3.獲取所有class 等於event的tr標籤
def class_tr():
trs = html.xpath("//tr[@class='event']")
print trs
# 4.獲取所有a標籤下的href屬性
def a_href():
alists = html.xpath("//a/@href")
for a in alists:
print a
print "d:\\python2.7\\"+a
# 5.或許所有的職位資訊(純文字)
positions =
def position_text():
trs = html.xpath("//tr[position()>1]")
for tr in trs:
# 在某個標籤下執行xpath函式,獲取這個標籤下的子孫元素,那麼在「//」前面加乙個「.」,即「//.」
lxml結合xpath注意事項
1.使用 xpath 語法。應該使用 element.xpath 方法。來執行xpath的選擇。示例 如下 trs html.xpath tr position 1 xpath函式 返回來的永遠是乙個列表。2.獲取某個標籤的屬性 href html.xpath a href 獲取a標籤的href屬性...
XPath語法和lxml模組
xpath xml path language 是一門在xml和html文件中查詢資訊的語言,可用來在xml和html文件中對元素和屬性進行遍歷。chrome外掛程式xpath helper。安裝方法 開啟外掛程式伴侶,選擇外掛程式 選擇提取外掛程式內容到桌面,桌面上會多乙個資料夾 把資料夾放入想要...
XPath語法和lxml模組
xpath xml path language 是一門在xml和html文件中查詢資訊的語言,可用來在xml和html文件中對元素和屬性進行遍歷。chrome外掛程式xpath helper。firefox外掛程式try xpath。xpath 使用路徑表示式來選取 xml 文件中的節點或者節點集。...