lxml和xpath結合使用

lxml和xpath結合使用主要有以下5個方面內容：

# 1.獲取所有的tr標籤

# 2.獲取第2個標籤

# 3.獲取所有class 等於event的tr標籤

# 4.獲取所有a標籤下的href屬性

# 5.或許所有的職位資訊（純文字）

# 6.get方法也可以得到屬性：img.get('data-original')，獲取img的data-original屬性的值

例項**如下：

# -- coding:utf-8 --
from lxml import etree
parser = etree.htmlparser(encoding="utf-8")
html = etree.parse("baudu.html", parser=parser)

# 1.獲取所有的tr標籤
# //tr
# xpath返回的是乙個列表
def return_trs():
trs = html.xpath("//tr")
for tr in trs:
print tr

# 2.獲取第2個標籤
def return_tr():
tr = html.xpath("//tr[2]")[0]
print type(tr)
print tr
print etree.tostring(tr, encoding="utf-8").decode("utf-8")

# 3.獲取所有class 等於event的tr標籤
def class_tr():
trs = html.xpath("//tr[@class='event']")
print trs

# 4.獲取所有a標籤下的href屬性
def a_href():
alists = html.xpath("//a/@href")
for a in alists:
print a
print "d:\\python2.7\\"+a

# 5.或許所有的職位資訊（純文字）
positions = 
def position_text():
trs = html.xpath("//tr[position()>1]")
for tr in trs:
# 在某個標籤下執行xpath函式，獲取這個標籤下的子孫元素，那麼在「//」前面加乙個「.」，即「//.」
				lxml結合xpath注意事項
1.使用 xpath 語法。應該使用 element.xpath 方法。來執行xpath的選擇。示例 如下 trs html.xpath tr position 1 xpath函式 返回來的永遠是乙個列表。2.獲取某個標籤的屬性 href html.xpath a href 獲取a標籤的href屬性...
				XPath語法和lxml模組
xpath xml path language 是一門在xml和html文件中查詢資訊的語言，可用來在xml和html文件中對元素和屬性進行遍歷。chrome外掛程式xpath helper。安裝方法 開啟外掛程式伴侶，選擇外掛程式 選擇提取外掛程式內容到桌面，桌面上會多乙個資料夾 把資料夾放入想要...
				XPath語法和lxml模組
xpath xml path language 是一門在xml和html文件中查詢資訊的語言，可用來在xml和html文件中對元素和屬性進行遍歷。chrome外掛程式xpath helper。firefox外掛程式try xpath。xpath 使用路徑表示式來選取 xml 文件中的節點或者節點集。...

lxml和xpath結合使用

lxml結合xpath注意事項

XPath語法和lxml模組

XPath語法和lxml模組

相關推薦