timeout引數用於設定超時。我們在爬取一些響應較慢的**的時候,需要設定乙個比較長的超時時間。
response = urllib2.urlopen(request, timeout=10)
上述**設定timeout
為10秒。
urllib2.urlopen("")事實上,並不是所有urllib2發起的請求都能得到伺服器的回應。
例如等情況都會造成urllib2丟擲錯誤。
urllib2提供了兩個exception用於處理響應的錯誤。
httperror除了reson屬性外還有code屬性。
code屬性即http狀態碼。更多狀態碼可以閱讀:
下面我們來展示一下示例**:
print e.reason值得注意的是 httperror是urlerror的子類,因此在捕獲exception的時候需要將子類放在前面避免exception先被父類捕獲。
2 爬蟲基礎 urllib2模組
底層操作request物件 請求頭設定之useragent使用者 請求頭設定 使用者 useragent 自定義請求頭訊息 請求方式之get post請求 get請求處理 post請求處理 handler處理器自定義開鎖人opener 自定義http opener 自定義proxy opener 會...
爬蟲 urllib2庫的使用
所謂網頁抓取,就是把url位址中指定的網路資源從網路流中讀取出來,儲存到本地。在python中有很多庫可以用來抓取網頁,我們先學習urllib2。urllib2 官方文件 urllib2 原始碼 urllib2在 python3.x 中被改為urllib.request 我們先來段 urllib2 ...
把玩之python爬蟲urllib2
1,什麼是urllib2庫?urllib2是python的乙個獲取urls的元件,通過urlopen函式的形式來提供了乙個非常簡單的介面,根據不同協議獲取urls的能力,urllib2提供了乙個比較復 雜的介面來處理情況,例如 基礎驗證,cookies,和其他。我們分析 response urlli...