爬取豆瓣閱讀的所有出版社
#出版社爬取
urlretrieve()
urlretrieve是urllib庫下的request下面的乙個方法,所以在使用的時候記得加上request.
清除爬蟲產生的快取。
urlcleanup是urllib庫下的request下面的乙個方法,所以在使用的時候記得加上request.
使用:直接呼叫,但是看不到實際的輸出
import urllib.request
urllib.request.urlcleanup(
)
info()
可以提示當前爬取的相應的情況
info是urllib庫下的request下面的乙個方法,所以在使用的時候記得加上request.
import urllib.request
#看網頁相應的簡介資訊info()
getcode()
輸出當前的狀態碼(訪問成功,訪問失敗,訪問失敗的原因等等)(正常是200,失敗時500,還有一些其他的,比如301等等,反正處理200,都是失敗的)
import urllib.request
#返回網頁爬取的狀態碼getcode()
geturl()
獲取當前訪問的網頁的url
import urllib.request
#獲取當前訪問的網頁的url,geturl()
由於網路速度或者對方伺服器的問題,我們爬取乙個網頁的時候都需要時間,如果我們訪問乙個網頁長時間未響應,那麼我們的系統就會判斷網頁開啟超時。(平常的時候我們開啟網頁也有這種現象)。
根據不同**的響應速度,我們對不同**設定超時時間,比如說反應快的我設定timeout
為2秒,反應慢的我設定timeout
為100秒(只是舉例)。
#超時設定
import urllib.request
for i in
range(0
,100):
try:
file
=urllib.request.urlopen(
"",timeout=1)
print
(len
(file
.read(
).decode(
"utf-8"))
)except exception as err:
print
("出現異常"
爬蟲 Python爬蟲學習筆記之Urllib庫
1.urllib.request開啟和讀取url 2.urllib.error包含urllib.request各種錯誤的模組 3.urllib.parse解析url 4.urllib.robotparse解析 robots.txt檔案 傳送get請求 引入urlopen庫 用於開啟網頁 from u...
Python爬蟲02 請求模組
七 json資料 response.text 返回unicode格式的資料 str response.content 返回位元組流資料 二進位制 response.content.decode utf 8 手動進行解碼 response.url 返回url response.encode 編碼 im...
Python學習之爬蟲基礎
第0步 獲取資料 通過requests庫來獲取資料 requests.get 用法 import requests 引入requests庫 res requests.get url requests.get是在呼叫requests庫中的get 方法,它向伺服器傳送了乙個請求,括號裡的引數是你需要的資...