爬蟲基礎 Python 抓取網頁（學習筆記）

import urllib.request
url=
""#**headers =
#瀏覽器偽裝
request=urllib.request.request(url,headers=headers)
#發出請求
#開啟和讀取url請求並且爬取網頁內容
try:
response=urllib.request.urlopen(request)
except exception as ex:
print
("請求失敗：%s"
%ex)
else
:    data=response.read(
)    data=data.decode(
'utf-8'
)print
(data)
print
(type
(response)
)print
(response.geturl())
#獲取url
print
(response.info())
print
(response.getcode())
#200表示響應成功，404找不到url,500伺服器內部錯誤

原先出現了urllib.error.httperror: http error 403: forbidden錯誤，參考該文，進行了瀏覽器偽裝。原因是豆瓣伺服器拒絕非瀏覽器檢視。

import urllib

import urllib.request

data=

wd=input()

data[

'word'

]=wd

url_values=urllib.parse.urlencode(data)

#將data轉換為'word=***+***』

(url_values)

url=

''full_url=url+url_values#合併url

(full_url)

data=urllib.request.urlopen(full_url)

.read(

)#傳送請求，獲取響應，爬取內容

#data=data.decode('utf-8')

#print(data)

#儲存with

("結束..."

)

python 爬蟲實現網頁資訊抓取

首先實現關於網頁解析讀取等操作我們要用到以下幾個模組 import urllib import urllib2 import re def test f urllib.urlopen while true firstline f.readline print firstline 我們大概要做幾件事...

python多執行緒爬蟲抓取網頁

突發想法，抓取資料以便採用機器學習分析練手，網頁為年份。步驟如下 1 每乙個子執行緒抓取每一年的網頁 2 抓取網頁後利用正規表示式抽取資料，存入多維list。3 構建sql語句，存入mysql。user bin env python3 coding utf 8 from bs4 import be...

python爬蟲 2 靜態網頁抓取

獲取響應內容 import requests r requests.get print 文字編碼 r.encoding 伺服器使用的文字編碼 print 響應狀態碼 r.status code 檢測響應的狀態碼，200為成功，4xx為客戶端錯誤，5xx為伺服器錯誤響應 print 字串方式的響應體 ...

爬蟲基礎 Python 抓取網頁（學習筆記）

python 爬蟲實現網頁資訊抓取

python多執行緒爬蟲抓取網頁

python爬蟲 2 靜態網頁抓取

相關推薦