Python3網頁抓取urllib

2021-08-08 23:25:11 字數 920 閱讀 9893

開啟網頁的過程其實就是瀏覽器作為乙個瀏覽的「客戶端」,向伺服器端傳送了一次請求,把伺服器端的檔案「抓」到本地,再進行解釋、展現。

爬蟲最主要的處理物件就是url,它根據url位址取得所需要的檔案內容,然後對它進行進一步的處理。網頁抓取,就是把url位址中指定的網路資源從網路流中讀取出來,儲存到本地。類似於使用程式模擬ie瀏覽器的功能,把url作為http請求的內容傳送到伺服器端, 然後讀取伺服器端的響應資源。

import urllib.request #python2裡用urllib2替換

#在python3中,我們使用urllib.request這個元件來抓取網頁,它以urlopen函式的形式提供介面。

response=urllib.request.urlopen('')

html=response.read()

print(html)

除了」http:」,url同樣可以使用」ftp:」,」file:」等等來替代。

http是基於「客戶端提出請求,服務端提**答」的工作機制。

import urllib.request

#用你要請求的位址建立乙個request物件

request=urllib.request.request('')

#通過呼叫urlopen並傳入request物件,將返回乙個相關請求response物件

response=urllib.request.urlopen(request)

#這個應答response物件如同乙個檔案物件,所以你可以在response中呼叫.read()

the_webpage=response.read()

print(the_webpage)

python3 網頁爬取 框架

程式的結構設計 步驟1 提交商品搜尋請求,迴圈獲取頁面 步驟2 對於每個頁面,提取商品名稱和 資訊 步驟3 將資訊輸出到螢幕上 步驟4 將資料存入資料庫 例項import requests import re from sqlalchemy import create engine def geth...

Python3網頁post登陸

引入庫 請求頭,通過firefox查得 headers 需要post的資料 postdata 獲取cookie 輸入賬號密碼的位址 loginurl 自動記住cookie 安裝opener到全域性 resp urllib.request.urlopen loginurl post登陸 post資料位...

Python3 爬蟲例項(一) 簡單網頁抓取

在著手寫爬蟲之前,要先把其需要的知識線路理清楚。http是hyper text transfer protocol 超文字傳輸協議 的縮寫。它的發展是全球資訊網協會 world wide web consortium 和internet工作小組ietf internet engineering ta...