python爬蟲 三大庫之lxml庫

2022-07-07 16:12:14 字數 1312 閱讀 5492

lxml庫是基於libxml2的xml解析庫的python庫,該模組使用c語言編寫,解析速度比beautifulsoup更快。

lxml庫使用xpath語法解析定位網頁資料。

windows系統下,在cmd命令提示框中,輸入如下命令:

pip install lxml

2.1 修正html**
lxml為xml解析庫,但也很好的支援了html文件的解析功能;

```from lxml import etree

text ='''

'''

# lxml庫解析資料,為element物件

html = etree.html(text)

print(html)

# lxml庫解析可自動修正html

result = etree.tostring(html)

print(result)

```

自動修正html是乙個非常實用的功能,保證html的標準性;

2.2 讀取html檔案

除了讀取字串,lxml庫還支援從檔案中提取內容;

`from lxml import etree

# 解析html檔案

html = etree.parse('flower.html')

result = etree.tostring(html,pretty_print=true)

print(result)`

注意:html檔案與**檔案在同一層是,用相對路徑就可以進行讀取;如果不在同一層,使用絕對路徑即可。

2.3 解析html檔案
完成了前面步驟,可利用requests庫獲取html檔案,再用lxml庫來解析html檔案;

`from lxml import etree

import requests

res = requests.get('')

html = etree.html(res.text)

result = etree.tostring(html,pretty_print=true)

print(result)`

| 爬取方法        |    效能  | 使用難度 |安裝難度

| 正規表示式 | 快 | 困難 |簡單(內建模組)

| beautifulsoup | 慢 | 簡單 |簡單

| lxml | 快 | 簡單 |簡單

python的lxml庫簡介 爬蟲三大庫簡介

爬蟲三大庫簡介 requests庫 requests 讓 http 服務人類。requests庫的作用就是請求 獲取網頁資料。簡單的使用示例 部分結果如下圖 開啟瀏覽器,進入在空白處右鍵,在如下所示的彈出選單中,選擇 檢視網頁原始碼 選項。我們在新彈出的頁面中看到,先前 print res.text...

Python爬蟲入門三之Urllib庫的基本使用

1.分分鐘扒乙個網頁下來 怎樣扒網頁呢?其實就是根據url來獲取它的網頁資訊,雖然我們在瀏覽器中看到的是一幅幅優美的畫面,但是其實是由瀏覽器解釋才呈現出來的,實質它是一段html 加 js css,如果把網頁比作乙個人,那麼html便是他的骨架,js便是他的肌肉,css便是它的衣服。所以最重要的部分...

Python爬蟲之Requests庫

所謂爬蟲就是模擬客戶端傳送網路請求,獲取網路響應,並按照一定的規則解析獲取的資料並儲存的程式。要說 python 的爬蟲必然繞不過 requests 庫。對於 requests 庫,官方文件是這麼說的 requests 唯一的乙個非轉基因的 python http 庫,人類可以安全享用。警告 非專業...