爬蟲快速入門 Get請求的使用

2021-10-25 05:14:59 字數 1505 閱讀 9823

# 專案名稱:

# 專案簡介:

# 作 者:key

from urllib.request import urlopen, request # 開啟url,和封裝請問

from fake_useragent import useragent # 獲取headers

from urllib.parse import quote # 轉為為url使用的unicode編碼

from urllib.parse import urlencode # 和quote功能相同,但是傳入字典,可以一次轉化多個引數,並完成拼接

import random

# url ='' \

# '%25a6%25e6%25b1%2589%25e5%25ad%25a6%25e9%2599%25a2&rsv_pq=ad90e4730010b099&rsv_t=cbd2illvjvfzhsq2z' \

# '%2btwysywcvqrpypgsdek4l2e%2fxmbeui2lbvlijvzzxs&rqlang=cn&rsv_enter=0&rsv_dl=tb&rsv_btype=t '

# 但實際的呢?我們發出請求響應測試,只需要'武漢學院'就行了

# url ="'武漢學院'"

# 但是呢,中文的武漢學院,url並不能識別

# 所以,我們要用url.parse裡面的quote物件,轉化為url可以識別的unicode編碼

# print(quote('武漢學院')) # 輸出資訊: %e6%ad%a6%e6%b1%89%e5%ad%a6%e9%99%a2

# url = "'%e6%ad%a6%e6%b1%89%e5%ad%a6%e9%99%a2'" # 如果在瀏覽器訪問 wd之後就不需要加字串

# 一般使用{}.format(quote("輸入資訊"))去替換

url =

'{}'

.format

(quote(

'武漢學院'))

# 使用urlencode進行轉化

# args =

# url = str("".format(urlencode(args)))

# print(''.format(urlencode(args)))

# 列印的資訊:%e6%ad%a6%e6%b1%89%e5%ad%a6%e9%99%a2&ie=utf-8

# 開發者工具獲取headers

headers =

# 建立物件獲取headers

# headers =

# 封裝

request = request(url, headers=headers)

# 訪問

response = urlopen(request)

# 列印返回資訊,一定要用decode()轉化,才是可讀資料

print

(response.read(

).decode(

))

爬蟲 urllib的get請求

quote 方法 是將漢字轉換成unicode編碼 import urllib.request import urllib.parse url 請求物件的定製是為了解決反爬的第一種手段 headers 將 周杰倫 三個漢字變成unicode編碼的格式 需要依賴urllib.parse name ur...

初探python爬蟲(一) get請求

爬蟲步驟 請求方式 get和post requests 安裝 pip install requests import requests 定義請求的url url 定義請求頭資訊 headers 發起get請求 res requests.get url url,headers headers 獲取相應...

爬蟲1 get與post請求

一 使用requests或urllib用get方法進行請求 這個就是使用requests使用get方法進行請求輸出的結果這個就是請求後得到的網頁html原始碼 2.使用urllib.request.open獲得的response 2.如果是斷開網路了,就是無效請求,則會返回404 3.什麼是請求頭,...