#xpath是在xml文件中搜尋內容的一門語言
#html是xml的子集
xml = """
1野花遍地⾹
1.23
臭⾖腐周⼤強
周芷若周杰倫
蔡依林惹了
胖胖陳胖胖不陳
"""from lxml import
etree
tree=etree.xml(xml)
#result=tree.xpath("/book/name") #/表示層級關係,第乙個/是根節點
#result=tree.xpath("/book/name/text()")
result=tree.xpath("
/book/*//nick/text()
")#雙斜槓表示找後代,*是萬用字元什麼節點都可以
#parse是載入檔案
print(result)
#xpath是在xml文件中搜尋內容的一門語言
#html是xml的子集
xml = """
1野花遍地⾹
1.23
臭⾖腐周⼤強
周芷若周杰倫
蔡依林惹了
胖胖陳胖胖不陳
"""from lxml import
etree
#tree=etree.xml(xml)
##result=tree.xpath("/book/name") #/表示層級關係,第乙個/是根節點
##result=tree.xpath("/book/name/text()")
#result=tree.xpath("/book/*//nick/text()")#雙斜槓表示找後代,*是萬用字元什麼節點都可以
##parse是載入檔案
#print(result)
tree=etree.parse("
b.html
",etree.htmlparser())
#result=tree.xpath("/html/body/ol/li/a[@href='dapao']/text()")
ol_list=tree.xpath("
/html/body/ul/li")
for l in
ol_list:
#從每乙個li提取到文字資訊
#res=l.xpath("./a/text()")#繼續查詢
res=l.xpath("
./a/@href")
(res)
res1=tree.xpath("
/html/body/div[1]/text()")
print(res1)
上面是xpath的語法,目前來說三種爬蟲,xpath應該是最簡單的,正則是最萬能的,xpath主要對於介面元素可以直接通過複製xpath路徑直接獲取不需要自己分析源**
爬蟲 xpath學習
xpath解析 最常用且最便捷高效的一種解析方式,具有通用性 xpath解析的原理 一 例項化乙個etree物件,且需要將被解析的頁面原始碼資料載入到該物件中 二 呼叫etree物件中的xpath方法結合著xpath表示式實現標籤定位和內容的捕獲 環境的安裝 pip install lxml 如何例...
python爬蟲XPath學習
xpath簡介和基本使用 1.前言 之前爬蟲的時候沒有用過xpath,就是沒用過lxml這個包,遇到json格式網頁我用的json.loads html格式用的beautifulsoup裡面有find和find all函式查詢標籤之類的。但是xpath在爬蟲裡面也算乙個比較重要的工具,當然要學習啦。...
python爬蟲學習 xpath
1.例項化乙個etree的物件,且需要將被解析的頁面原始碼資料載入到該物件中。2.呼叫etree物件中的xpath方法結合著xpath表示式實現標籤的定位和內容的捕獲。pip install lxml1.將本地的html文件中的原始碼資料載入etree物件中 etree.parse filepath...