抓取網頁之後下一步就是從網頁中提取資訊。提取方式有很多種,可以利用正規表示式進行提請,但是相對而言比較麻煩繁瑣。現在有很多強大的解析庫供我們使用,如lxml,beautiful soupp,pyquery等。本節對其安裝進行介紹。
lxml的安裝
lxml支援html和xml的解析,支援xpath解析方式。
在windos下直接利用pip安裝,執行命令列命令:
pip3 install lxml
beautiful soup的安裝beautiful suop是python的乙個html或xml的解析庫,我們可以用它來方便地從網頁中提取資料。它的html和xml解析器是依賴於lxml庫的,所以在此之前需要確保已經成功安裝好了lxml庫。
依舊是pip安裝:
pip3 install beautifulsoup4
pyquery的安裝pyquery提供了和jquery類似的語法來解析html文件,支援css選擇器。
pip3 install pyquery
tesserocr的安裝爬蟲過程中難免遇到各種各樣的驗證碼,而大多數驗證碼還是圖形驗證碼,這時候可以用ocr(optical character recognition)來識別。
tesserocr是python的乙個ocr識別庫,但其實是對tesseract坐的一層python api封裝,所以它的核心是tesseract。因此,在此之前需要安裝tesseract。
最後,安裝tesserocr即可:
pip3 install tesserocr pillow
安裝好的各種庫,最後在python目錄下\lib\site-packages中可以檢視到。
mysql的安裝
這裡安裝mysql參照教程:
從零開始的Python 3
學!都可以學!1.直接放例項吧qaq 下為求階乘的遞迴 def jc n if n 1 or n 0 return 1 n n jc n 1 return n num jc 10 print num 2.然而函式可以訪問全域性變數但不能修改全域性變數。在函式內宣告全域性變數後才能修改 num 1 d...
從零開始 Python3 學習筆記
感覺有必要學習一門計算機語言,之前學過的計算機語言早已經還給老師了,現在想想實在是浪費 現在算是從零開始學了 在網上查了一下python入門比較簡單,應用面比較廣,好吧,於是就選它吧 短期的目標是做乙個簡單的爬蟲,爬取某網頁上的資料 網上看了一下案例 importurllib.request url...
Python3爬蟲從零開始 正規表示式
正規表示式測試工具 例項1 match import re content hello 123 4567 world this is a regex demo print len content result re.match hello s d d d s d s w content print ...