lxml庫是基於libxml2的xml解析庫的python庫,該模組使用c語言編寫,解析速度比beautifulsoup更快。
lxml庫使用xpath語法解析定位網頁資料。
windows系統下,在cmd命令提示框中,輸入如下命令:
pip install lxml
2.1 修正html**lxml為xml解析庫,但也很好的支援了html文件的解析功能;
```from lxml import etree
text ='''
'''
# lxml庫解析資料,為element物件
html = etree.html(text)
print(html)
# lxml庫解析可自動修正html
result = etree.tostring(html)
print(result)
```
自動修正html是乙個非常實用的功能,保證html的標準性;
2.2 讀取html檔案
除了讀取字串,lxml庫還支援從檔案中提取內容;
`from lxml import etree
# 解析html檔案
html = etree.parse('flower.html')
result = etree.tostring(html,pretty_print=true)
print(result)`
注意:html檔案與**檔案在同一層是,用相對路徑就可以進行讀取;如果不在同一層,使用絕對路徑即可。
2.3 解析html檔案完成了前面步驟,可利用requests庫獲取html檔案,再用lxml庫來解析html檔案;
`from lxml import etree
import requests
res = requests.get('')
html = etree.html(res.text)
result = etree.tostring(html,pretty_print=true)
print(result)`
| 爬取方法 | 效能 | 使用難度 |安裝難度
| 正規表示式 | 快 | 困難 |簡單(內建模組)
| beautifulsoup | 慢 | 簡單 |簡單
| lxml | 快 | 簡單 |簡單
python的lxml庫簡介 爬蟲三大庫簡介
爬蟲三大庫簡介 requests庫 requests 讓 http 服務人類。requests庫的作用就是請求 獲取網頁資料。簡單的使用示例 部分結果如下圖 開啟瀏覽器,進入在空白處右鍵,在如下所示的彈出選單中,選擇 檢視網頁原始碼 選項。我們在新彈出的頁面中看到,先前 print res.text...
Python爬蟲入門三之Urllib庫的基本使用
1.分分鐘扒乙個網頁下來 怎樣扒網頁呢?其實就是根據url來獲取它的網頁資訊,雖然我們在瀏覽器中看到的是一幅幅優美的畫面,但是其實是由瀏覽器解釋才呈現出來的,實質它是一段html 加 js css,如果把網頁比作乙個人,那麼html便是他的骨架,js便是他的肌肉,css便是它的衣服。所以最重要的部分...
Python爬蟲之Requests庫
所謂爬蟲就是模擬客戶端傳送網路請求,獲取網路響應,並按照一定的規則解析獲取的資料並儲存的程式。要說 python 的爬蟲必然繞不過 requests 庫。對於 requests 庫,官方文件是這麼說的 requests 唯一的乙個非轉基因的 python http 庫,人類可以安全享用。警告 非專業...