1.lxml pip3 install lxml
2.beautifulsoup4 pip3 install beautifulsoup4
3.pyquery pip3 install pyquery
4.tesserocr
sudo
apt-get
install -y tesseract-ocr libtesseract-dev libleptonica-dev
我們檢視一下其支援的語言
tesseract --list-langs
結果顯示只支援幾種語言,若想安裝多國語言,就需要安裝tessdata(github上面搜)
ubuntu系統下的遷移命令
sudo
mv tessdata-4.0.0/* /usr/share/tesseract-ocr/tessdata
檢視一下所有支援的語言
tesseract --list-langs
安裝tesserocr 和pillow
pip3 install tesserocr pillow
爬蟲之xpath解析庫
xpath語法 1.常用規則 1.nodename 節點名定位 2.從當前節點擊取子孫節點 3.從當前節點擊取直接子節點 4.nodename attribute 根據屬性定位標籤 div class ui main 5.attributename 獲取屬性 6.text 獲取文字 2.屬性匹配兩種...
爬蟲請求庫的安裝
1.requests pip3 install requests 2.selenium pip3 install selenium 3.安裝谷歌和火狐瀏覽器 4.chromedriver和geckodriver github上搜尋,windows複製到python的 scripts目錄下,linux...
python爬蟲常用庫安裝 爬蟲常用庫的安裝
請求庫 解析庫儲存庫 工具庫請求庫 urlib re python內建庫 requests pip3 install requests pip2,pip conda都是可以選擇的 selenium pip3 install selenium chromedriver 測試python下輸入 from...