import requests
url =
""head =
data
= requests.get(url , headers = head)
這樣寫完全沒問題,能正確爬取頁面
但事實在爬取貓眼的時候就不可以了,
顯示的是403,錯誤**
其實原因很簡單出在頭的位置,
我們爬蟲實際上是模擬人的操作的
故只要讓他認為你是瀏覽器就可以了
故原因肯定是在頭上
import requests
url =
""header =
data = requests.get(url , headers = header)
print
(data.text)
看到沒有果然是頭錯了,應該寫的是「user-agent」,而我寫成了小寫,所以出錯了。 在爬100萬資料的時候,我發現了爬蟲的高階之路
學習最好還是要以需求為驅動才能夠快速成長。這是我最近一段時間的體會,其實也是我最近在寫爬蟲的思考。通過需求,讓你處於緊迫的狀態,不斷學習新的知識,去滿足這樣那樣的需求。這個時候,你會處於一種高度集中的狀態,你的學習能力也是最強的時候。之前的爬蟲文章使用的都是一些基礎 python 的知識,特別是在做...
是該行動的時候了!
現在不是罵娘也不是罵別人娘的時候。現在最需要的是行動,問題到了該徹底解決的時候了。拖到什麼時候?明年?畢業?我們專公升本為了什麼?說上不了場面的話不就是學位證和本科畢業證嗎?現在我們的班級是高職的,學號是高職的,推薦表,協議書,成績單都是高職的。各個學院根本不承認我們,雖然同意給蓋章,但大家難道看不...
http equiv 頭的常見設定
1 和 用以說明主頁製作所使用的文字以及語言 又如英文是iso 8859 1字符集,還有big5 utf 8 shift jis euc koi8 2等字符集 2 定時讓網頁在指定的時間n秒內,跳轉到頁面http yourlink 3 可以用於設定網頁的到期時間,一旦過期則必須到伺服器上重新呼叫。需...