Python學習之爬蟲02 urllib庫學習

爬取豆瓣閱讀的所有出版社
#出版社爬取
urlretrieve()urlretrieve是urllib庫下的request下面的乙個方法，所以在使用的時候記得加上request.
清除爬蟲產生的快取。
urlcleanup是urllib庫下的request下面的乙個方法，所以在使用的時候記得加上request.
使用：直接呼叫，但是看不到實際的輸出
import urllib.request
urllib.request.urlcleanup(
)
info()可以提示當前爬取的相應的情況
info是urllib庫下的request下面的乙個方法，所以在使用的時候記得加上request.
import urllib.request
#看網頁相應的簡介資訊info()
getcode()輸出當前的狀態碼（訪問成功，訪問失敗，訪問失敗的原因等等）（正常是200，失敗時500，還有一些其他的，比如301等等，反正處理200，都是失敗的）
import urllib.request
#返回網頁爬取的狀態碼getcode()
geturl()獲取當前訪問的網頁的url
import urllib.request
#獲取當前訪問的網頁的url，geturl()
由於網路速度或者對方伺服器的問題，我們爬取乙個網頁的時候都需要時間，如果我們訪問乙個網頁長時間未響應，那麼我們的系統就會判斷網頁開啟超時。（平常的時候我們開啟網頁也有這種現象）。
根據不同**的響應速度，我們對不同**設定超時時間，比如說反應快的我設定timeout為2秒，反應慢的我設定timeout為100秒(只是舉例)。
#超時設定
import urllib.request
for i in
range(0
,100):
try:
file
=urllib.request.urlopen(
"",timeout=1)
print
(len
(file
.read(
).decode(
"utf-8"))
)except exception as err:
print
("出現異常"
				爬蟲 Python爬蟲學習筆記之Urllib庫
1.urllib.request開啟和讀取url 2.urllib.error包含urllib.request各種錯誤的模組 3.urllib.parse解析url 4.urllib.robotparse解析 robots.txt檔案 傳送get請求 引入urlopen庫 用於開啟網頁 from u...
				Python爬蟲02 請求模組
七 json資料 response.text 返回unicode格式的資料 str response.content 返回位元組流資料 二進位制 response.content.decode utf 8 手動進行解碼 response.url 返回url response.encode 編碼 im...
				Python學習之爬蟲基礎
第0步 獲取資料 通過requests庫來獲取資料 requests.get 用法 import requests 引入requests庫 res requests.get url requests.get是在呼叫requests庫中的get 方法，它向伺服器傳送了乙個請求，括號裡的引數是你需要的資...
Python學習之爬蟲02 urllib庫學習

爬蟲 Python爬蟲學習筆記之Urllib庫

Python爬蟲02 請求模組

Python學習之爬蟲基礎

相關推薦