爬蟲日記 4 urllib的基本使用

前面已經看到urllib庫的魔力，了了數行就可以把網頁的內容抓取下來，為了以後打下堅實的基礎，在本文裡對urllib庫更進一步了解，學會它的基本使用方法。

urllib 是乙個 python 內建包，不需要額外安裝即可使用，包裡面包含了以下幾個用來處理 url 的模組：

urllib.request，用來開啟和讀取 url，意思就是可以用它來模擬傳送請求，就像在瀏覽器裡輸入**然後敲擊回車一樣，獲取網頁響應內容。

urllib.error，用來處理 urllib.request 引起的異常，保證程式的正常執行。

urllib.parse，用來解析 url，可以對 url 進行拆分、合併等。

urllib.robotparse，用來解析 robots.txt 檔案，判斷**是否能夠進行爬取。

在前面我們使用了urllib.request庫，使用urllib庫需要匯入urllib庫中對應的模組。

import urllib.request

爬蟲 urllib基本庫的使用

urllib包含了request 開啟和讀取url error 包含request引發的異常 parse 解析url robotparser 解析robots.txt檔案四個用於處理url的模組。使用urllib.request.urlopen 傳送請求示例 coding utf 8 from ...

Python爬蟲筆記（三）Urllib庫的使用

urllib庫是python自帶庫，作為最基本的請求庫，提供了一系列用於操作url的功能。urlopen 實現對目標的訪問，使用urllib.request.urlopen 其中data none 時，使用post方式，否則get方式。timeout 1，即要求在1秒內取得響應，否則error u...

Python爬蟲 Urllib庫的基本使用

其實上面的urlopen引數可以傳入乙個request請求,它其實就是乙個request類的例項，構造時需要傳入url,data等等的內容。比如上面的兩行我們可以這麼改寫 import urllib import requests request urllib.request.request re...

爬蟲日記 4 urllib的基本使用

爬蟲 urllib基本庫的使用

Python爬蟲筆記（三）Urllib庫的使用

Python爬蟲 Urllib庫的基本使用

相關推薦