import urllib.request
url=
""#**headers =
#瀏覽器偽裝
request=urllib.request.request(url,headers=headers)
#發出請求
#開啟和讀取url請求並且爬取網頁內容
try:
response=urllib.request.urlopen(request)
except exception as ex:
print
("請求失敗:%s"
%ex)
else
: data=response.read(
) data=data.decode(
'utf-8'
)print
(data)
print
(type
(response)
)print
(response.geturl())
#獲取url
print
(response.info())
print
(response.getcode())
#200表示響應成功,404找不到url,500伺服器內部錯誤
原先出現了urllib.error.httperror: http error 403: forbidden錯誤,參考該文,進行了瀏覽器偽裝。原因是豆瓣伺服器拒絕非瀏覽器檢視。
import urllib
import urllib.request
data=
wd=input()
data[
'word'
]=wd
url_values=urllib.parse.urlencode(data)
#將data轉換為'word=***+***』
(url_values)
url=
''full_url=url+url_values#合併url
(full_url)
data=urllib.request.urlopen(full_url)
.read(
)#傳送請求,獲取響應,爬取內容
#data=data.decode('utf-8')
#print(data)
#儲存with
("結束..."
)
python 爬蟲實現網頁資訊抓取
首先實現關於網頁解析 讀取等操作我們要用到以下幾個模組 import urllib import urllib2 import re def test f urllib.urlopen while true firstline f.readline print firstline 我們大概要做幾件事...
python多執行緒爬蟲抓取網頁
突發想法,抓取 資料以便採用機器學習分析練手,網頁為年份。步驟如下 1 每乙個子執行緒抓取每一年的網頁 2 抓取網頁後利用正規表示式抽取資料,存入多維list。3 構建sql語句,存入mysql。user bin env python3 coding utf 8 from bs4 import be...
python爬蟲 2 靜態網頁抓取
獲取響應內容 import requests r requests.get print 文字編碼 r.encoding 伺服器使用的文字編碼 print 響應狀態碼 r.status code 檢測響應的狀態碼,200為成功,4xx為客戶端錯誤,5xx為伺服器錯誤響應 print 字串方式的響應體 ...