urllib是python內建的http請求庫,它包含四個子模組:
request模組,它是最基本的 http 請求模組,我們可以用它來模擬傳送一請求,就像在瀏覽器裡輸入**然後敲擊回車一樣,只需要給庫方法傳入 url 還有額外的引數,就可以模擬實現這個過程了。
error模組即異常處理模組,如果出現請求錯誤,我們可以捕獲這些異常,然後進行重試或其他操作保證程式不會意外終止。
parse模組是乙個工具模組,提供了許多 url 處理方法,比如拆分、解析、合併等等的方法。
robotparser模組,主要是用來識別**的 robots.txt 檔案,然後判斷哪些**可以爬,哪些**不可以爬的,其實用的比較少。
request模組
urllib.request 模組提供了最基本的構造 http 請求的方法,利用它可以模擬瀏覽器的乙個請求發起過程,同時它還帶有處理authenticaton(授權驗證),redirections(重定向),cookies(瀏覽器cookies)以及其它內容的功能 實現乙個簡單的抓取網頁功能,以python官網為例。
import urllib.request
response = urllib.request.urlopen(
'')print
(response.read(
).decode(
'utf-8'))
# 將網頁內容列印輸出
執行結果如下:
python標準庫學習之zipfile模組
zipfile模組裡有兩個非常重要的class,分別是zipfile和zipinfo。zipfile是主要的類,用來建立和讀取zip檔案,而zipinfo是儲存的zip檔案的每個檔案的資訊的。class zipfile.zipfile file mode compression allowzip64...
Python標準庫系列之pathlib模組
首先我們看使用os模組連線目錄和檔案 import os.path data folder os.path.join source data text files file to open os.path.join data folder,raw data.txt f open file to op...
Python標準庫之time, datetime包
python具有良好的時間和日期管理功能。實際上,計算機只會維護乙個掛鐘時間 wall clock time 這個時間是從某個固定時間起點到現在的時間間隔。時間起點的選擇與計算機相關,但一台計算機的話,這一時間起點是固定的。其它的日期資訊都是從這一時間計算得到的。此外,計算機還可以測量cpu實際上執...