使用xpath表示式需要先將需要匹配的資料轉換成tree格式,這就需要先裝lxml模組。安裝方法可以使用pip安裝。
示例**:
importurllib.request
from lxml import
etree
date=urllib.request.urlopen("
").read().decode("
utf-8
","ignore")
treedate=etree.html(date) #
將urllib獲取的資料轉換成etree結構
title=treedate.xpath("
//title/text()
")#使用xpath表示式獲取想要的資料
if (str(type(title)))=="
": #
了避免有些資料是迭代器之類的格式,所以判斷獲取的資料型別並轉換為列表型別
pass
else
: title=[i for i in title] #
將資料通過遍歷轉換成列表型別
補充知識點:
>>> [i for i in range(1,10)][1, 2, 3, 4, 5, 6, 7, 8, 9]
如何在Urllib中使用XPath表示式
nodename 選取此節點的所有子節點 逐層提取 text 提取標籤下的文字內容 標籤名 提取所有此標籤名的標籤,如 title,提取所有title標籤,包括title,若想剔除掉標籤,要用text 即 title text 標籤名 屬性 屬性值 提取屬性為xx的標籤 選取當前節點 選取當前節點的...
lxml 模組下 xpath 的使用
匯入方式 from lxml import etree 用於建立初始根節點 用於向下層尋找 用於提取屬性內容 text 用於提取文字內容 xpath路徑可以手動尋找 也可以借助工具進行尋找 這裡推薦使用chrome 瀏覽器 f12 開啟開發者工具,選擇對應位置 右鍵copy即可得到 一般使用先抓大 ...
urllib使用詳解
urllib.parse.urlencode query 將query字典轉換為url路徑中的查詢字串urllib.parse parse qs qs 將qs查詢字串格式資料轉換為python的字典urllib.request.urlopen url,data none 傳送http請求,如果dat...