爬蟲養成記 urllib2的除錯和錯誤處理

2021-09-17 02:15:49 字數 1119 閱讀 9367

timeout引數用於設定超時。我們在爬取一些響應較慢的**的時候,需要設定乙個比較長的超時時間。

response = urllib2.urlopen(request, timeout=10)
上述**設定timeout為10秒。

urllib2.urlopen("")事實上,並不是所有urllib2發起的請求都能得到伺服器的回應。

例如等情況都會造成urllib2丟擲錯誤。

urllib2提供了兩個exception用於處理響應的錯誤。

httperror除了reson屬性外還有code屬性。

code屬性即http狀態碼。更多狀態碼可以閱讀:

下面我們來展示一下示例**:

print e.reason值得注意的是 httperror是urlerror的子類,因此在捕獲exception的時候需要將子類放在前面避免exception先被父類捕獲。

2 爬蟲基礎 urllib2模組

底層操作request物件 請求頭設定之useragent使用者 請求頭設定 使用者 useragent 自定義請求頭訊息 請求方式之get post請求 get請求處理 post請求處理 handler處理器自定義開鎖人opener 自定義http opener 自定義proxy opener 會...

爬蟲 urllib2庫的使用

所謂網頁抓取,就是把url位址中指定的網路資源從網路流中讀取出來,儲存到本地。在python中有很多庫可以用來抓取網頁,我們先學習urllib2。urllib2 官方文件 urllib2 原始碼 urllib2在 python3.x 中被改為urllib.request 我們先來段 urllib2 ...

把玩之python爬蟲urllib2

1,什麼是urllib2庫?urllib2是python的乙個獲取urls的元件,通過urlopen函式的形式來提供了乙個非常簡單的介面,根據不同協議獲取urls的能力,urllib2提供了乙個比較復 雜的介面來處理情況,例如 基礎驗證,cookies,和其他。我們分析 response urlli...