爬蟲 urllib模組使用和注意事項

urllib 並不是python爬蟲的首選模組！！使用流程食用即可

# 需求：爬去搜狗頁面
import urllib.request
# 指定url
url =
''# 指定url發起請求，返回響應物件
response = urllib.request.urlopen(url=url)
# 獲取資料: read出資料
data = response.read(
)# 進行持久化儲存
with
open
('./sougou.html'
,'wb'
)as f:
f.write(data)

url不能有非ascii編碼字元資料（中文）

解決方法：urllib.parse

'''如果含有中文就必須做轉碼'''
word = urllib.parse.quote('中文必須這樣')
url = 'web?query='
url += word
response = urllib.request.urlopen(url=url)

偽裝ua

import urllib.request
url =
''headers =
'''自定義請求，返回請求物件request'''
request = urllib.request.request(url=url, headers=headers)
'''訪問頁面'''
response = urllib.request.urlopen(request)
data = response.read(
)print
(data)

'''因為沒有設定ssl所以，點進request原始碼'''
import ssl
context = ssl._create_unverified_context(
)

import urllib.request
import urllib.parse
# 指定url
url =
'''''post請求攜帶的引數進行處理'''
# 1. 將post封裝
data =
# 2. 編碼處理 返回字串
data = urllib.parse.urlencode(data)
# 3. 將字串轉成 byte型別
data = data.encode(
)# 請求  data : post的引數
response = urllib.request.urlopen(url=url, data=data)
print
(response.read(
))

爬蟲網路請求模組urllib

url 統一資源定位符 uniform resource locator https 協議 new.qq.com 主機名網域名稱省略了埠 443 omn twf20200 twf2020032502924000.html 訪問資源的路徑 anchor 錨點前端用來做頁面定位或者導航 from ...

Python爬蟲之urllib模組2

python爬蟲之urllib模組2 pg 55,乙個待畢業待就業的二流大學生。看了一下上一節的反饋，有些同學認為這個沒什麼意義，也有的同學覺得太簡單，關於 beautifulsoup 和lxml 獲取後面的鏈結我們能不能如法炮製呢，我們先來試試。我們把寫成下面那樣然後我們現在來試試結果我們發...

Python 爬蟲實戰內建模組urllib介紹

請求方法結語那麼接下來就正式進入正題了 urllib.request模組是python中的內建模組。所以在我們使用它時就不用再去重新安裝了。urllib.request模組中又很多的類和方法,下面我來說一下他們 import urllib.request url url resopnse url...

爬蟲 urllib模組使用和注意事項

爬蟲網路請求模組urllib

Python爬蟲之urllib模組2

Python 爬蟲實戰 內建模組urllib介紹

相關推薦

Python 爬蟲實戰內建模組urllib介紹