靜態網頁的爬取過程一般是
傳送請求——獲得頁面——解析頁面——抽取並儲存內容所以分別需要學習用到的
請求庫——解析庫——儲存庫urllib、requests
我這裡詳細學習的是requests,在某些方面上,requests的確要比urllib更加簡單。
import requests
lxml+xpath、beautiful soup、pyquery
我這裡詳細學習的是beautiful soup,也簡單學習了lxml+xpath。
from bs4 import beautifulsoup
pymysql、 pymongo、 redis-py
我這裡詳細學習的是pymysql和redis-py的使用。
import pymysql
import redis
動態網頁的爬取過程一般有兩種辦法
ajax分析or模擬瀏覽器自動爬取其中的,我認為模擬瀏覽器自動爬取更加便捷、高效。
一般會去使用selenium或者splash進行模擬
import selenium
目前強大有名的爬蟲框架——pyspider和scrapy
我打算學習的是scrapy
暫未學習
暫未學習
暫未學習
python 爬蟲奇思妙想
總結 工程化思想,requests的使用 反爬 1.robots告訴你哪些可以爬取 2.判斷header頭來限制爬蟲 你自己改就完事了 爬取網頁 總結 工程化,保證程式怎麼exe都不會erro import requests url try kv r requests.get url,headers...
python爬蟲基本流程 Python爬蟲流程
python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...
Python爬蟲的整體流程
對於爬蟲小白來說,很多人都感覺不知道怎麼開始學習。從網上查來查去,找到的多是部分的 但很少有從整體上闡述爬蟲的流程的,因此導致了很多人對於爬蟲的難以理解和無從下手。接下來就介紹一下爬蟲的整體流程。爬蟲整體上可以分為三個步驟 獲取網頁就是向乙個 傳送request,然後 返回網頁的資料。獲取網頁我們可...