爬蟲xpath學習

2022-10-10 08:06:10 字數 1447 閱讀 5268

#

xpath是在xml文件中搜尋內容的一門語言

#html是xml的子集

xml = """

1野花遍地⾹

1.23

臭⾖腐周⼤強

周芷若周杰倫

蔡依林惹了

胖胖陳胖胖不陳

"""from lxml import

etree

tree=etree.xml(xml)

#result=tree.xpath("/book/name") #/表示層級關係,第乙個/是根節點

#result=tree.xpath("/book/name/text()")

result=tree.xpath("

/book/*//nick/text()

")#雙斜槓表示找後代,*是萬用字元什麼節點都可以

#parse是載入檔案

print(result)

#

xpath是在xml文件中搜尋內容的一門語言

#html是xml的子集

xml = """

1野花遍地⾹

1.23

臭⾖腐周⼤強

周芷若周杰倫

蔡依林惹了

胖胖陳胖胖不陳

"""from lxml import

etree

#tree=etree.xml(xml)

##result=tree.xpath("/book/name") #/表示層級關係,第乙個/是根節點

##result=tree.xpath("/book/name/text()")

#result=tree.xpath("/book/*//nick/text()")#雙斜槓表示找後代,*是萬用字元什麼節點都可以

##parse是載入檔案

#print(result)

tree=etree.parse("

b.html

",etree.htmlparser())

#result=tree.xpath("/html/body/ol/li/a[@href='dapao']/text()")

ol_list=tree.xpath("

/html/body/ul/li")

for l in

ol_list:

#從每乙個li提取到文字資訊

#res=l.xpath("./a/text()")#繼續查詢

res=l.xpath("

./a/@href")

print

(res)

res1=tree.xpath("

/html/body/div[1]/text()")

print(res1)

上面是xpath的語法,目前來說三種爬蟲,xpath應該是最簡單的,正則是最萬能的,xpath主要對於介面元素可以直接通過複製xpath路徑直接獲取不需要自己分析源**

爬蟲 xpath學習

xpath解析 最常用且最便捷高效的一種解析方式,具有通用性 xpath解析的原理 一 例項化乙個etree物件,且需要將被解析的頁面原始碼資料載入到該物件中 二 呼叫etree物件中的xpath方法結合著xpath表示式實現標籤定位和內容的捕獲 環境的安裝 pip install lxml 如何例...

python爬蟲XPath學習

xpath簡介和基本使用 1.前言 之前爬蟲的時候沒有用過xpath,就是沒用過lxml這個包,遇到json格式網頁我用的json.loads html格式用的beautifulsoup裡面有find和find all函式查詢標籤之類的。但是xpath在爬蟲裡面也算乙個比較重要的工具,當然要學習啦。...

python爬蟲學習 xpath

1.例項化乙個etree的物件,且需要將被解析的頁面原始碼資料載入到該物件中。2.呼叫etree物件中的xpath方法結合著xpath表示式實現標籤的定位和內容的捕獲。pip install lxml1.將本地的html文件中的原始碼資料載入etree物件中 etree.parse filepath...