python 3中,urllib是乙個收集幾個模組來使用url的軟體包,具備以下幾個功能:
urllib.request.urlopen(url,data=none,[timeout,]*)
data: 預設值為none,表示請求方式為get,反之為post
timeout:超時設定
#匯入urllib
import urllib.request
#開啟url
response = urllib.request.urlopen(
'',none,2
)#讀取返回的內容
html = response.read(
).decode(
'utf8'
)#寫入txt
f =open
('html.txt'
,'w'
,encoding =
'utf8'
)f.write(html)
f.close(
)
複雜的請求
urllib.request.request(url, data=none, headers={},method=none)
#匯入urllib
import urllib.request
url =
''# 自定義請求頭
headers =
#設定request請求頭
req= urllib.request.request(url,headers=headers)
#使用urlopen開啟req
html = urllib.request.urlopen(req)
.read(
).decode(
'utf8'
)#寫入txt
f =open
('html.txt'
,'w'
,encoding =
'utf8'
)f.write(html)
f.close(
)
urllib簡單網頁抓取
urllib包 抓取網頁,處理url,包含模組 用urllib實現簡單的網頁抓取 coding utf 8 from urllib import request import chardet if name main response request.urlopen html response.re...
urllib2抓取網頁內容
urllib和urllib2 1 urllib 僅可以接受 url,urllib2 可以接受 個設定了 headers 的 request 類例項。這表示我們可以偽裝 的 user agent 字串等。2 urllib 提供 urlencode 法 來 get 查詢字串的產 urllib2 沒有。這...
python爬蟲抓取資訊 urllib
自己晚上寫的 本來抓取的是匯率 沒寫完 唉 路還長 繼續走 import requests import urllib.request import urllib.request import re import datetime def get headers 定義請求頭 換著請求頭進行爬取 he...