爬蟲常用相關庫

2022-07-02 03:39:12 字數 387 閱讀 1123

1.爬取資料的庫和框架:urllib2和urllib, urllib3, requests, 框架:scrapy 和 分布式爬取庫 scrapy-redis

2.解析html資料的:正則, xpath(語言) beautifulsoup4

3.解析json資料的庫:jsonpath

4.json通用提取資料方式是:先轉換成python中字典,根據key取值,json庫

5.資料分析的庫:numpy, pandas

6.視覺化的庫:matplotlib

7.資料儲存:檔案,mysql, mongodb, redis

注意:urllib2在python3中被改為 urllib.request ; python直譯器自帶urllib和urllib2 這兩個庫;

python爬蟲常用庫安裝 爬蟲常用庫的安裝

請求庫 解析庫儲存庫 工具庫請求庫 urlib re python內建庫 requests pip3 install requests pip2,pip conda都是可以選擇的 selenium pip3 install selenium chromedriver 測試python下輸入 from...

python爬蟲相關庫安裝

python爬蟲涉及的庫 請求庫,解析庫,儲存庫,工具庫 1.請求庫 urllib re requests 1 urllib re是python預設自帶的庫,可以通過以下命令進行驗證 沒有報錯資訊輸出,說明環境正常 2 requests安裝 2.1 開啟cmd,輸入 pip3 install req...

爬蟲常用庫之pyquery 庫

pyquery庫是jquery的python實現,可以用於解析html網頁內容,我個人寫過的一些抓取網頁資料的指令碼就是用它來解析html獲取資料的。他的官方文件位址是 今天重新看了一遍整個文件,把它的一些使用方法整理了一下,做個記錄。使用方法 from pyquery import pyquery...