爬蟲基礎 Python 抓取網頁(學習筆記)

2021-09-29 15:55:53 字數 1352 閱讀 4968

import urllib.request

url=

""#**headers =

#瀏覽器偽裝

request=urllib.request.request(url,headers=headers)

#發出請求

#開啟和讀取url請求並且爬取網頁內容

try:

response=urllib.request.urlopen(request)

except exception as ex:

print

("請求失敗:%s"

%ex)

else

: data=response.read(

) data=data.decode(

'utf-8'

)print

(data)

print

(type

(response)

)print

(response.geturl())

#獲取url

print

(response.info())

print

(response.getcode())

#200表示響應成功,404找不到url,500伺服器內部錯誤

原先出現了urllib.error.httperror: http error 403: forbidden錯誤,參考該文,進行了瀏覽器偽裝。原因是豆瓣伺服器拒絕非瀏覽器檢視。

import urllib

import urllib.request

data=

wd=input()

data[

'word'

]=wd

url_values=urllib.parse.urlencode(data)

#將data轉換為'word=***+***』

print

(url_values)

url=

''full_url=url+url_values#合併url

print

(full_url)

data=urllib.request.urlopen(full_url)

.read(

)#傳送請求,獲取響應,爬取內容

#data=data.decode('utf-8')

#print(data)

#儲存with

("結束..."

)

python 爬蟲實現網頁資訊抓取

首先實現關於網頁解析 讀取等操作我們要用到以下幾個模組 import urllib import urllib2 import re def test f urllib.urlopen while true firstline f.readline print firstline 我們大概要做幾件事...

python多執行緒爬蟲抓取網頁

突發想法,抓取 資料以便採用機器學習分析練手,網頁為年份。步驟如下 1 每乙個子執行緒抓取每一年的網頁 2 抓取網頁後利用正規表示式抽取資料,存入多維list。3 構建sql語句,存入mysql。user bin env python3 coding utf 8 from bs4 import be...

python爬蟲 2 靜態網頁抓取

獲取響應內容 import requests r requests.get print 文字編碼 r.encoding 伺服器使用的文字編碼 print 響應狀態碼 r.status code 檢測響應的狀態碼,200為成功,4xx為客戶端錯誤,5xx為伺服器錯誤響應 print 字串方式的響應體 ...