一、xpath是什麼
xpath 是一門在 xml 文件中查詢資訊的語言。xpath 用於在 xml 文件中通過元素和屬性進行導航。
xpath 使用路徑表示式在 xml 文件中進行導航
xpath 包含乙個標準函式庫
xpath 是 xslt 中的主要元素
xpath 是乙個 w3c 標準
二、xpath在python內容提取中的常用規則
1.選取節點
xpath 使用路徑表示式在 xml 文件中選取節點。節點是通過沿著路徑或者 step 來選取的。
下面列出了最有用的路徑表示式:
表示式描述
nodename
選取此節點的所有子節點。
/從根節點擊取。
//從匹配選擇的當前節點擊擇文件中的節點,而不考慮它們的位置。
.選取當前節點。
..選取當前節點的父節點。
@選取屬性。
示例:
# -*- coding: utf-8 -*-from lxml import etree
import requests
resp = requests.get(''
'yuanzw/xiaoxueyuwen/rj3s/')
resp.encoding = 'gbk'
html = resp.text
doc = etree.html(html)
# 選取網頁標題
print(doc.xpath('//title')[0].text) # 「//」從匹配選擇的當前節點擊擇文件中的節點
print(doc.xpath('/html/head/title')[0].text) # 「/」從根節點開始提取
python提取內容 使用Python提取小說內容
具體實現功能如下 輸入 目錄頁的url之後,指令碼會自動分析目錄頁,提取 的章節名和章節鏈結位址。然後再從章節鏈結位址逐個提取章節內容。現階段只是將 從第一章開始,每次提取一章內容,回車之後提取下一章內容。其他 的結果可能有不同,需要做一定修改。在逐浪測試過正常。coding utf8 usr bi...
網頁內容爬取 如何提取正文內容
建立乙個新 一開始沒有內容,通常需要抓取其他人的網頁內容,一般的操作步驟如下 為每個網頁寫特徵分析這個還是太耗費開發的時間,我的思路是這樣的。python的beautifulsoup包大家都知道吧,import beautifulsoup soup beautifulsoup.beautifulso...
python 網頁內容抓取
使用模組 import urllib2 import urllib 普通抓取例項 usr bin python coding utf 8 import urllib2 url 建立request物件 request urllib2.request url 傳送請求,獲取結果 try response...