Python寫網路爬蟲之 構造和解析URL

2021-10-08 15:42:36 字數 2957 閱讀 3017

4.2 url 拼接和組合

4.3 url的序列化

4.4 url 的反序列化

4.5 url 的格式轉換(編碼)

4.6 url 的格式轉換(解碼)

當我們想構造乙個網路爬蟲來爬取網路資源的時候,我們要構造乙個 url 讓爬蟲去訪問,然後把資源揹回來。所以我們要學習 url 的相關知識。

一般標準的 url 構成都會符合這六種結構部分。

解析 url, 解析之後可以進行 url 中各個部分的提取

效果與①幾乎相同,只是不再單獨解析 引數 部分;最終只返回 5 個結果

將列表形式的 url 進行拼接成乙個整體

也是進行拼接,只不過輸入的引數也是五項

可以提供乙個基礎鏈結 base_url 作為第乙個引數,將新鏈結作為第二個引數,該方法會解析 base_url 中的 scheme、netloc、path這三個內容並對新鏈結缺失的部分進行補充

具體的例項可以參考 urljoin 的詳細用法

將字典形式的資料序列化成 url 的一部分

將序列化的內容轉化為字典形式

作用跟 ① 相似,只是最後輸出的形式是元組

對出現中文引數時候的亂碼情況,把中文符號轉化為url 編碼

from urllib.parse import quote

keyword =

'桌布'

對url進行解碼

python寫網路爬蟲

注 本文旨在練習正規表示式的簡單使用方法 usr bin evn python coding cp936 def gethtml url 定義gethtml 函式,用來獲取頁面源 page urllib.urlopen url urlopen 根據url來獲取頁面源 html page.read 從...

python寫爬蟲之if name

在寫爬蟲的過程中遇到的疑問,故此記下來。在大多數編排得好一點的指令碼或者程式裡面都有這段if name main 雖然一直知道他的作用,但是一直比較模糊,收集資料詳細理解之後與打架分享。1 這段 的功能 乙個python的檔案有兩種使用的方法,第一是直接作為指令碼執行,第二是import到其他的py...

學習python寫網路爬蟲(一)

最簡單的爬蟲 import urllib2 defdownload url return urllib2.urlopen url read print download 更加健壯的版本,可以捕獲異常了 import urllib2 defdownload url print downloading ...