Python寫網路爬蟲之構造和解析URL

4.2 url 拼接和組合

4.3 url的序列化

4.4 url 的反序列化

4.5 url 的格式轉換（編碼）

4.6 url 的格式轉換（解碼）

當我們想構造乙個網路爬蟲來爬取網路資源的時候，我們要構造乙個 url 讓爬蟲去訪問，然後把資源揹回來。所以我們要學習 url 的相關知識。

一般標準的 url 構成都會符合這六種結構部分。

解析 url，解析之後可以進行 url 中各個部分的提取

效果與①幾乎相同，只是不再單獨解析引數部分；最終只返回 5 個結果
將列表形式的 url 進行拼接成乙個整體

也是進行拼接，只不過輸入的引數也是五項

可以提供乙個基礎鏈結 base_url 作為第乙個引數，將新鏈結作為第二個引數，該方法會解析 base_url 中的 scheme、netloc、path這三個內容並對新鏈結缺失的部分進行補充

具體的例項可以參考 urljoin 的詳細用法
將字典形式的資料序列化成 url 的一部分
將序列化的內容轉化為字典形式
作用跟 ① 相似，只是最後輸出的形式是元組

對出現中文引數時候的亂碼情況，把中文符號轉化為url 編碼
from urllib.parse import quote
keyword =
'桌布'
對url進行解碼
				python寫網路爬蟲
注 本文旨在練習正規表示式的簡單使用方法 usr bin evn python coding cp936 def gethtml url 定義gethtml 函式，用來獲取頁面源 page urllib.urlopen url urlopen 根據url來獲取頁面源 html page.read 從...
				python寫爬蟲之if   name
在寫爬蟲的過程中遇到的疑問，故此記下來。在大多數編排得好一點的指令碼或者程式裡面都有這段if name main 雖然一直知道他的作用，但是一直比較模糊，收集資料詳細理解之後與打架分享。1 這段 的功能 乙個python的檔案有兩種使用的方法，第一是直接作為指令碼執行，第二是import到其他的py...
				學習python寫網路爬蟲（一）
最簡單的爬蟲 import urllib2 defdownload url return urllib2.urlopen url read print download 更加健壯的版本，可以捕獲異常了 import urllib2 defdownload url print downloading ...
				

Python寫網路爬蟲之 構造和解析URL

python寫網路爬蟲

python寫爬蟲之if name

學習python寫網路爬蟲（一）

相關推薦

Python寫網路爬蟲之構造和解析URL