Python3爬蟲從零開始庫的安裝

抓取網頁之後下一步就是從網頁中提取資訊。提取方式有很多種，可以利用正規表示式進行提請，但是相對而言比較麻煩繁瑣。現在有很多強大的解析庫供我們使用，如lxml,beautiful soupp,pyquery等。本節對其安裝進行介紹。

lxml的安裝

lxml支援html和xml的解析，支援xpath解析方式。

在windos下直接利用pip安裝，執行命令列命令：

pip3 install lxml

beautiful soup的安裝beautiful suop是python的乙個html或xml的解析庫，我們可以用它來方便地從網頁中提取資料。它的html和xml解析器是依賴於lxml庫的，所以在此之前需要確保已經成功安裝好了lxml庫。

依舊是pip安裝：

pip3 install beautifulsoup4

pyquery的安裝pyquery提供了和jquery類似的語法來解析html文件，支援css選擇器。

pip3 install pyquery

tesserocr的安裝爬蟲過程中難免遇到各種各樣的驗證碼，而大多數驗證碼還是圖形驗證碼，這時候可以用ocr（optical character recognition）來識別。

tesserocr是python的乙個ocr識別庫，但其實是對tesseract坐的一層python api封裝，所以它的核心是tesseract。因此，在此之前需要安裝tesseract。

最後，安裝tesserocr即可：

pip3 install tesserocr pillow

安裝好的各種庫，最後在python目錄下\lib\site-packages中可以檢視到。

mysql的安裝

這裡安裝mysql參照教程：

Python3爬蟲從零開始 庫的安裝