爬蟲步驟
1.獲取網頁,使用urllib,requests等第三方庫構造http請求
2.提取資訊,使用正規表示式或者beautifulsoup,pyquery,lxml等工具分析網頁原始碼,提取所需要的資料
3.儲存資料,mongodb,mysql等多種工具
4.自動化程式,抓取過程中的批處理,異常處理,錯誤重試等操作
會話和cookie
原因:http協議對於事務處理沒有記憶能力,即伺服器不知道客戶端是什麼狀態,伺服器不會記錄處理請求前後客戶端的變化
會話物件:儲存特定使用者會話所需的屬性及配置資訊,當使用者請求來自應用程式的web頁時,如果該使用者還沒有會話則自動建立,會話過期或放棄後,伺服器終止會話,伺服器端。
會話維持:當客戶端第一次請求伺服器時,伺服器會返回乙個響應頭帶有set-cookie欄位的響應給客戶端,用以標記使用者,客戶端瀏覽器會把cookie放到請求頭一起提交給伺服器,cookie攜帶了會話id資訊,伺服器檢查該cookies即可找到對應的會話是什麼,然後再判斷會話來辨認使用者狀態。如果傳給伺服器的cookies是無效的或者會話過期,則返回錯誤響應或者跳轉登入介面重新登入。
**的基本原理
封ip:伺服器檢測某個ip在單位時間內的請求次數,如果超過了這個閾值,就會返回錯誤資訊
原理:作為web伺服器和客戶端請求的中轉站,客戶端向**伺服器提出請求,**伺服器向web伺服器傳送請求,接著**伺服器將web伺服器返回的響應**給本機
Python網路爬蟲基礎
爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張 大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。因此,使用者看到的網頁實質是由 html 構成的,爬蟲爬來的便是這 些內容,通過分析和過濾這些 html 實現對 文字等資源的獲取。url,即統...
Python爬蟲(2 網路爬蟲的實現原理及技術)
1.網路爬蟲實現原理 以兩種爬蟲為例,講解網路爬蟲的實現原理。1 通用網路爬蟲 圖1 通用網路爬蟲實現原理及過程 見圖1,通用網路爬蟲的實現原理及過程可以簡要概括為 i.獲取初始url。初始的url位址可以由使用者人為指定,也可以由使用者指定的某個或某幾個初始爬去網頁決定。ii.根據初始的url爬取...
Python網路爬蟲基礎 一
2.urllib和urllib2模組使用 3.requests模組使用 4.python三種網頁內容抓取方法 當瀏覽器向web伺服器發出請求時,它向伺服器傳遞了乙個資料塊,也就是請求信 息,http請求資訊由3部分組成 請求方法 uri 協議 版本 請求頭 request header 請求正文 右...