當我們在獲取到網頁相應內容的時候, 就會使用去解析它 過濾得到想要的內容
lxml 庫
beautiful soup
擷取部分內容, 以下所有例子將以這個響應內容來示範, 假設響應的內容字串 定義為乙個變數 content
使用python 中內建的模組 re正則模組
如解析頁面 上所有的名人的名字:
import re
pat = re.
輸出:[『albert einstein』, 『j.k. rowling』, 『albert einstein』, 『jane austen』, 『marilyn monroe』, 『albert einstein』, 『andré gide』, 『thomas a. edison』, 『eleanor roosevelt』, 『steve martin』]
lxml 支援xpath 的解析方式,那什麼是xpath解析呢?
xpath 使用路徑表示式來選取 xml 文件中的節點或節點集。節點是通過沿著路徑 (path) 或者步 (steps) 來選取的。 xpath 解析方式
同樣使用上面的例子,首先需要安裝 lxml庫
from lxml import etree
html = etree.html(content)
authors = html.xpath(
首先需要安裝 beautifulsoup 解析器pip install beautifulsoup4
from bs4 import beautifulsoup
soup = beautifulsoup(content,
)authors = soup.select(
)for author in authors:
pyquery語法與前端 jquery的用法幾乎一樣
from pyquery import pyquery as pq
doc = pq(content)
authors = doc(
)for author in authors.items():
會使用jsonpath的地方 , 一般響應的內容 是json資料 。
the authors of all books in the store
all authors
all things in store, which are some books and a red bicycle.
the price of everything in the store.
the third book
the last book in order.
the first two books
filter all books with isbn number
filter all books cheapier than 10
all elements in xml document. all members of json structure.
這裡使用 一段 json 資料
我們來獲取 所有的作者 和 所有**
import jsonpath
import json
json_str =
}}'''jc = json.loads(json_str)
jp = jsonpath.jsonpath(jc,
jp = jsonpath.jsonpath(jc,
[『nigel rees』, 『evelyn waugh』, 『herman melville』, 『j. r. r. tolkien』]
[8.95, 12.99, 8.99, 22.99, 19.95]
