Python網路爬蟲

1. 請求headers處理

有時在請求乙個網頁內容時，發現無論通過get或者是post以及其他請求方式，都會出現403錯誤。這種現象多數為伺服器拒絕了你的訪問，那是因為這些網頁為了防止惡意採集資訊，所使用的反爬蟲設定。此時可以模擬瀏覽器的頭部資訊來進行訪問，這樣就能解決以上反爬蟲設定的問題。下面以requests模組為例介紹請求頭部headers的處理，具體步驟如下：

（1）通過瀏覽器的網路監視器檢視頭部資訊，首先通過goole瀏覽器開啟對應的網頁位址，然後開啟網路監視器，再重新整理當前頁面，網路監視器將顯示如下的資料資訊。開啟goole瀏覽器的headers資訊請轉這個鏈結

（2）找到我們所需的資訊，即圖中劃線標註的資訊就是我們所要的顯示請求頭部資訊，將其複製下來。

（3）實現**，首先建立乙個需要爬取的url位址，然後建立headers頭部資訊，在傳送請求等待響應，最後列印網頁的**資訊。**如下：

import  requests
url  =''                #建立需要爬取網頁的位址
#建立頭部資訊
headers = 
response =requests.get(url,headers=headers)               #傳送網路請求
print(response.content)                                   #以位元組流的形式列印網頁原始碼

注意：當出現「attributeerror: 『set』 object has no attribute 『items』」錯誤時，要仔細檢查自己請求的網頁內容的headers頭部資訊是否正確，是否加上了「user-agent"。

Python網路爬蟲

Python網路爬蟲

python網路爬蟲

python網路爬蟲

Python網路爬蟲

Python網路爬蟲

python網路爬蟲

python網路爬蟲

相關推薦