Python標準庫之資料抓取模組urllib

2021-10-12 07:33:31 字數 1035 閱讀 2867

urllib是python內建的http請求庫,它包含四個子模組:

request模組,它是最基本的 http 請求模組,我們可以用它來模擬傳送一請求,就像在瀏覽器裡輸入**然後敲擊回車一樣,只需要給庫方法傳入 url 還有額外的引數,就可以模擬實現這個過程了。

error模組即異常處理模組,如果出現請求錯誤,我們可以捕獲這些異常,然後進行重試或其他操作保證程式不會意外終止。

parse模組是乙個工具模組,提供了許多 url 處理方法,比如拆分、解析、合併等等的方法。

robotparser模組,主要是用來識別**的 robots.txt 檔案,然後判斷哪些**可以爬,哪些**不可以爬的,其實用的比較少。

request模組

urllib.request 模組提供了最基本的構造 http 請求的方法,利用它可以模擬瀏覽器的乙個請求發起過程,同時它還帶有處理authenticaton(授權驗證),redirections(重定向),cookies(瀏覽器cookies)以及其它內容的功能 實現乙個簡單的抓取網頁功能,以python官網為例。

import urllib.request

response = urllib.request.urlopen(

'')print

(response.read(

).decode(

'utf-8'))

# 將網頁內容列印輸出

執行結果如下:

python標準庫學習之zipfile模組

zipfile模組裡有兩個非常重要的class,分別是zipfile和zipinfo。zipfile是主要的類,用來建立和讀取zip檔案,而zipinfo是儲存的zip檔案的每個檔案的資訊的。class zipfile.zipfile file mode compression allowzip64...

Python標準庫系列之pathlib模組

首先我們看使用os模組連線目錄和檔案 import os.path data folder os.path.join source data text files file to open os.path.join data folder,raw data.txt f open file to op...

Python標準庫之time, datetime包

python具有良好的時間和日期管理功能。實際上,計算機只會維護乙個掛鐘時間 wall clock time 這個時間是從某個固定時間起點到現在的時間間隔。時間起點的選擇與計算機相關,但一台計算機的話,這一時間起點是固定的。其它的日期資訊都是從這一時間計算得到的。此外,計算機還可以測量cpu實際上執...