前面已經看到urllib庫的魔力,了了數行就可以把網頁的內容抓取下來,為了以後打下堅實的基礎,在本文裡對urllib庫更進一步了解,學會它的基本使用方法。
urllib 是乙個 python 內建包,不需要額外安裝即可使用,包裡面包含了以下幾個用來處理 url 的模組:
urllib.request,用來開啟和讀取 url,意思就是可以用它來模擬傳送請求,就像在瀏覽器裡輸入**然後敲擊回車一樣,獲取網頁響應內容。
urllib.error,用來處理 urllib.request 引起的異常,保證程式的正常執行。
urllib.parse,用來解析 url,可以對 url 進行拆分、合併等。
urllib.robotparse,用來解析 robots.txt 檔案,判斷**是否能夠進行爬取。
在前面我們使用了urllib.request庫,使用urllib庫需要匯入urllib庫中對應的模組。
import urllib.request
爬蟲 urllib基本庫的使用
urllib包含了request 開啟和讀取url error 包含request引發的異常 parse 解析url robotparser 解析robots.txt檔案 四個用於處理url的模組。使用urllib.request.urlopen 傳送請求 示例 coding utf 8 from ...
Python爬蟲筆記(三)Urllib庫的使用
urllib庫是python自帶庫,作為最基本的請求庫,提供了一系列用於操作url的功能。urlopen 實現對目標 的訪問,使用urllib.request.urlopen 其中data none 時,使用post方式,否則get方式。timeout 1,即要求在1秒內取得響應,否則error u...
Python爬蟲 Urllib庫的基本使用
其實上面的urlopen引數可以傳入乙個request請求,它其實就是乙個request類的例項,構造時需要傳入url,data等等的內容。比如上面的兩行 我們可以這麼改寫 import urllib import requests request urllib.request.request re...