python爬蟲三大庫之lxml庫

lxml庫是基於libxml2的xml解析庫的python庫，該模組使用c語言編寫，解析速度比beautifulsoup更快。

lxml庫使用xpath語法解析定位網頁資料。

windows系統下，在cmd命令提示框中，輸入如下命令：

pip install lxml

2.1 修正html**

lxml為xml解析庫，但也很好的支援了html文件的解析功能；
```from lxml import etree
text ='''
'''  
# lxml庫解析資料，為element物件
html = etree.html(text)
print(html)
# lxml庫解析可自動修正html
result = etree.tostring(html)
print(result)
```

自動修正html是乙個非常實用的功能，保證html的標準性；

2.2 讀取html檔案

除了讀取字串，lxml庫還支援從檔案中提取內容；
`from lxml import etree
# 解析html檔案
html = etree.parse('flower.html')
result = etree.tostring(html,pretty_print=true)
print(result)`
注意：html檔案與**檔案在同一層是，用相對路徑就可以進行讀取；如果不在同一層，使用絕對路徑即可。

2.3 解析html檔案

完成了前面步驟，可利用requests庫獲取html檔案，再用lxml庫來解析html檔案；
`from lxml import etree
import requests
res = requests.get('')
html = etree.html(res.text)
result = etree.tostring(html,pretty_print=true)
print(result)`

| 爬取方法        |    效能  | 使用難度 |安裝難度
| 正規表示式      |    快    | 困難     |簡單（內建模組）
| beautifulsoup  |    慢    | 簡單     |簡單
| lxml           |    快    |   簡單   |簡單

python的lxml庫簡介爬蟲三大庫簡介

爬蟲三大庫簡介 requests庫 requests 讓 http 服務人類。requests庫的作用就是請求獲取網頁資料。簡單的使用示例部分結果如下圖開啟瀏覽器，進入在空白處右鍵，在如下所示的彈出選單中，選擇檢視網頁原始碼選項。我們在新彈出的頁面中看到，先前 print res.text...

Python爬蟲入門三之Urllib庫的基本使用

1.分分鐘扒乙個網頁下來怎樣扒網頁呢？其實就是根據url來獲取它的網頁資訊，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段html 加 js css，如果把網頁比作乙個人，那麼html便是他的骨架，js便是他的肌肉，css便是它的衣服。所以最重要的部分...

Python爬蟲之Requests庫

所謂爬蟲就是模擬客戶端傳送網路請求，獲取網路響應，並按照一定的規則解析獲取的資料並儲存的程式。要說 python 的爬蟲必然繞不過 requests 庫。對於 requests 庫，官方文件是這麼說的 requests 唯一的乙個非轉基因的 python http 庫，人類可以安全享用。警告非專業...

python爬蟲 三大庫之lxml庫

python的lxml庫簡介 爬蟲三大庫簡介

Python爬蟲入門三之Urllib庫的基本使用

Python爬蟲之Requests庫

相關推薦

python爬蟲三大庫之lxml庫

python的lxml庫簡介爬蟲三大庫簡介