1.爬取資料的庫和框架:urllib2和urllib, urllib3, requests, 框架:scrapy 和 分布式爬取庫 scrapy-redis
2.解析html資料的:正則, xpath(語言) beautifulsoup4
3.解析json資料的庫:jsonpath
4.json通用提取資料方式是:先轉換成python中字典,根據key取值,json庫
5.資料分析的庫:numpy, pandas
6.視覺化的庫:matplotlib
7.資料儲存:檔案,mysql, mongodb, redis
注意:urllib2在python3中被改為 urllib.request ; python直譯器自帶urllib和urllib2 這兩個庫;
python爬蟲常用庫安裝 爬蟲常用庫的安裝
請求庫 解析庫儲存庫 工具庫請求庫 urlib re python內建庫 requests pip3 install requests pip2,pip conda都是可以選擇的 selenium pip3 install selenium chromedriver 測試python下輸入 from...
python爬蟲相關庫安裝
python爬蟲涉及的庫 請求庫,解析庫,儲存庫,工具庫 1.請求庫 urllib re requests 1 urllib re是python預設自帶的庫,可以通過以下命令進行驗證 沒有報錯資訊輸出,說明環境正常 2 requests安裝 2.1 開啟cmd,輸入 pip3 install req...
爬蟲常用庫之pyquery 庫
pyquery庫是jquery的python實現,可以用於解析html網頁內容,我個人寫過的一些抓取網頁資料的指令碼就是用它來解析html獲取資料的。他的官方文件位址是 今天重新看了一遍整個文件,把它的一些使用方法整理了一下,做個記錄。使用方法 from pyquery import pyquery...