python 爬蟲帶參爬取

知乎搜尋爬蟲

爬蟲

由上可知，每個url都是由兩部分組成：[ 和 [xx=xx&xx=x]

中間用『？』連線

帶參訪問：url+str()
例如：url = ''+str(i*20)
你可以改變後面i的值再訪問鏈結

20

傳遞url引數，通常乙個字串會跟在url後面中間以？分開

這樣看上去比較繁瑣囉嗦，不夠簡潔，resquests模組裡面requests.get()中有乙個引數parms，它可以讓我們用字典的形式，把引數傳進去，

例如：

url_test=httpbin.org/get?key=va1
payload=
res=requests.get(url_test,parms=payload)
print(res.url)	#

其實我們開啟每乙個請求，都會有乙個requests headers，一般我們稱之為「請求頭」。它裡面會有一些關於該請求的基本資訊，例如它會記錄發出請求的裝置和瀏覽器。圖中的user-agent（既使用者**）記錄的就是我的電腦系統資訊（win10系統）和瀏覽器（谷歌瀏覽器）。

origin和referer則是記錄了這個請求的最初**是哪個頁面。相比之下referer會比origin更長，這意味著referer會攜帶更多的資訊。

如何封裝requests headers：

與封裝params非常類似，我們只需要將origin或referer一併作為字典寫入headers就好

例如：

headers =

如果你的迴圈次數非常多，伺服器很可能拒絕爬蟲訪問。因為即使是可以爬的**，過於頻繁的訪問也可能被判定為對**的攻擊。這種情況下你最好將自己的爬蟲偽裝成真實的瀏覽器（也就是在請求時填寫請求頭）。對於不允許爬蟲訪問的**如知乎、貓眼電影等更應該如此。

知乎爬蟲

python 爬蟲 帶參爬取