上次介紹了requests庫的一些引數和函式,今天我給大家介紹一些requests庫的小應用,所有學習都是基於《python網路爬蟲與資訊提取》。
對於requests這個庫來說,最主要的功能就是進行網頁的爬取,其實爬取的方式基本上都大致相同,所以在這裡我們介紹一種網頁爬取框架
#爬取網頁通用**框架
import requests
def gethtmltext(url):
try:
r = requests.get(url,timeout=30)
#timeout設定乙個返回時間
# 如果在這個時間之內請求沒有返回
# 就返回乙個timeerror
r.raise_for_status()
#將網頁的編碼實際分析值傳遞給猜測值
return r.text
except:
return "產生異常"
if __name__=="__main__":
url = ""
print(gethtmltext(url)) # 列印爬取資訊
這裡運用異常處理是因為不是任何的網頁的爬取都是能夠成功的,所以為了避免各式各樣的錯誤,所以我們新增異常處理來解決這個問題。運用這個框架我們就可以獲取一些網頁的資訊,但是需要注意的是,不是所有網頁都能爬取。
#爬取web網頁的photo檔案
import requests
import os # os庫對計算機檔案進行操作(主要用來判斷檔案是否存在和建立檔案)
url = ""
root = "x://get-web-photo//"
path = root + url.split("/")[-1]
#運用split函式對url進行切片,並用分割後的字串列表的最後乙個元素
#這裡這麼操作可以得到檔案的名字和字尾,配合os庫就能夠完成檔案的儲存
try:
if not os.path.exists(root): #判斷根目錄是否存在,不存在就建立乙個這樣的根目錄
os.mkdir(root) #建立
if not os.path.exists(path): #判斷檔案是否存在
r = requests.get(url)
with open (path,'wb') as f:#開啟路徑寫入檔案
f.write(r.content)
print("檔案儲存成功")
f.close()
else:
print("檔案已經存在")
except:
print("獲取檔案失敗")
是不是找到什麼規律了?
對,沒錯,實際上搜尋就是一種提交方式,我們可以用這種方式來提交關鍵字進行搜尋。
import requests
keyword = "111.227.147.21"
try:
kv = # 構建鍵值對替換ip進行查詢
r = requests.get("",params = kv)
print(r.request.url) #列印出ip位址查詢介面的url
r.raise_for_status() # 錯誤返回函式
print(len(r.text)) # 頁面位元組長度
print(r.text[-500:]) # 列印頁面後500個位元組資訊
except:
print("查詢失敗")
至此,幾種關於requests的小應用都介紹給大家了,其實他們的原理都是相同的,都是利用requests庫對url進行一系列的操作來達到一定的目的。 爬蟲筆記 Requests
requests庫是能夠處理獲取url 鏈結 中的資訊的乙個第三方庫 一 requests安裝 windows進入cmd命令列 pip install requests 我們可以開啟idle來檢視是否成功的安裝。沒有提示錯誤資訊表示我們已經成功地安裝好了requests庫 二 requests下的主...
爬蟲入門 Requests庫
首先用管理員許可權開啟cmd命令列,然後直接輸入 pip install requests,即可安裝成功 需要聯網 方法 作用requests.request 構造乙個請求,它是支撐以下方法的基礎方法 requests.get 獲取html網頁的主要方法,請求獲取url位置的資源 requests....
資料爬蟲 requests庫
import requests response requests.get 模擬瀏覽器,欺騙瀏覽器,獲取和瀏覽器一致的內容。url headers requests.get url,headers headers url問號後面的就是請求引數,也叫查詢字串。kw response requests....