爬網頁的時候設定了頭但是還是不能爬取的原因

2021-09-28 21:37:29 字數 483 閱讀 9302

import requests

url =

""head =

data

= requests.get(url , headers = head)

這樣寫完全沒問題,能正確爬取頁面

但事實在爬取貓眼的時候就不可以了,

顯示的是403,錯誤**

其實原因很簡單出在頭的位置,

我們爬蟲實際上是模擬人的操作的

故只要讓他認為你是瀏覽器就可以了

故原因肯定是在頭上

import requests

url =

""header =

data = requests.get(url , headers = header)

print

(data.text)

看到沒有果然是頭錯了,應該寫的是「user-agent」,而我寫成了小寫,所以出錯了。

在爬100萬資料的時候,我發現了爬蟲的高階之路

學習最好還是要以需求為驅動才能夠快速成長。這是我最近一段時間的體會,其實也是我最近在寫爬蟲的思考。通過需求,讓你處於緊迫的狀態,不斷學習新的知識,去滿足這樣那樣的需求。這個時候,你會處於一種高度集中的狀態,你的學習能力也是最強的時候。之前的爬蟲文章使用的都是一些基礎 python 的知識,特別是在做...

是該行動的時候了!

現在不是罵娘也不是罵別人娘的時候。現在最需要的是行動,問題到了該徹底解決的時候了。拖到什麼時候?明年?畢業?我們專公升本為了什麼?說上不了場面的話不就是學位證和本科畢業證嗎?現在我們的班級是高職的,學號是高職的,推薦表,協議書,成績單都是高職的。各個學院根本不承認我們,雖然同意給蓋章,但大家難道看不...

http equiv 頭的常見設定

1 和 用以說明主頁製作所使用的文字以及語言 又如英文是iso 8859 1字符集,還有big5 utf 8 shift jis euc koi8 2等字符集 2 定時讓網頁在指定的時間n秒內,跳轉到頁面http yourlink 3 可以用於設定網頁的到期時間,一旦過期則必須到伺服器上重新呼叫。需...