爬蟲筆記 Requests庫的應用(網頁爬取)

2021-09-05 04:05:32 字數 1987 閱讀 7464

上次介紹了requests庫的一些引數和函式,今天我給大家介紹一些requests庫的小應用,所有學習都是基於《python網路爬蟲與資訊提取》。

對於requests這個庫來說,最主要的功能就是進行網頁的爬取,其實爬取的方式基本上都大致相同,所以在這裡我們介紹一種網頁爬取框架

#爬取網頁通用**框架

import requests

def gethtmltext(url):

try:

r = requests.get(url,timeout=30)

#timeout設定乙個返回時間

# 如果在這個時間之內請求沒有返回

# 就返回乙個timeerror

r.raise_for_status()

#將網頁的編碼實際分析值傳遞給猜測值

return r.text

except:

return "產生異常"

if __name__=="__main__":

url = ""

print(gethtmltext(url)) # 列印爬取資訊

這裡運用異常處理是因為不是任何的網頁的爬取都是能夠成功的,所以為了避免各式各樣的錯誤,所以我們新增異常處理來解決這個問題。運用這個框架我們就可以獲取一些網頁的資訊,但是需要注意的是,不是所有網頁都能爬取。

#爬取web網頁的photo檔案

import requests

import os # os庫對計算機檔案進行操作(主要用來判斷檔案是否存在和建立檔案)

url = ""

root = "x://get-web-photo//"

path = root + url.split("/")[-1]

#運用split函式對url進行切片,並用分割後的字串列表的最後乙個元素

#這裡這麼操作可以得到檔案的名字和字尾,配合os庫就能夠完成檔案的儲存

try:

if not os.path.exists(root): #判斷根目錄是否存在,不存在就建立乙個這樣的根目錄

os.mkdir(root) #建立

if not os.path.exists(path): #判斷檔案是否存在

r = requests.get(url)

with open (path,'wb') as f:#開啟路徑寫入檔案

f.write(r.content)

print("檔案儲存成功")

f.close()

else:

print("檔案已經存在")

except:

print("獲取檔案失敗")

是不是找到什麼規律了?

對,沒錯,實際上搜尋就是一種提交方式,我們可以用這種方式來提交關鍵字進行搜尋。

import requests

keyword = "111.227.147.21"

try:

kv = # 構建鍵值對替換ip進行查詢

r = requests.get("",params = kv)

print(r.request.url) #列印出ip位址查詢介面的url

r.raise_for_status() # 錯誤返回函式

print(len(r.text)) # 頁面位元組長度

print(r.text[-500:]) # 列印頁面後500個位元組資訊

except:

print("查詢失敗")

至此,幾種關於requests的小應用都介紹給大家了,其實他們的原理都是相同的,都是利用requests庫對url進行一系列的操作來達到一定的目的。

爬蟲筆記 Requests

requests庫是能夠處理獲取url 鏈結 中的資訊的乙個第三方庫 一 requests安裝 windows進入cmd命令列 pip install requests 我們可以開啟idle來檢視是否成功的安裝。沒有提示錯誤資訊表示我們已經成功地安裝好了requests庫 二 requests下的主...

爬蟲入門 Requests庫

首先用管理員許可權開啟cmd命令列,然後直接輸入 pip install requests,即可安裝成功 需要聯網 方法 作用requests.request 構造乙個請求,它是支撐以下方法的基礎方法 requests.get 獲取html網頁的主要方法,請求獲取url位置的資源 requests....

資料爬蟲 requests庫

import requests response requests.get 模擬瀏覽器,欺騙瀏覽器,獲取和瀏覽器一致的內容。url headers requests.get url,headers headers url問號後面的就是請求引數,也叫查詢字串。kw response requests....