五個簡單的 Requests 庫爬蟲例項

2021-09-09 09:11:49 字數 2075 閱讀 8388

本文是中國大學mooc上的python網路爬蟲與資訊提取 課程中的筆記,是五個基本的爬蟲操作,個人覺得其中的方法比較常用,因此記錄下來了。

**:

import requests

url = ""

try :

r = requests.get(url)

r.raise_for_status()

print(r.text[:1000])

except :

print("爬取失敗")

執行結果:

可以通過 params 傳遞引數,例如,獲取搜尋 python 的網頁。

import requests

keyword = "python"

url = ""

try :

kv =

r = requests.get(url, params=kv)

print(r.request.url)

r.raise_for_status()

print(len(r.text))

except :

print("爬取失敗")

結果:

?wd=pythonocean>

428599

360 搜尋**:

import requests

keyword = "python"

url = ""

try :

kv =

r = requests.get(url, params=kv)

print(r.request.url)

r.raise_for_status()

print(len(r.text))

except :

print("爬取失敗")

結果:

print("檔案儲存成功")

else :

print("檔案已存在")

except :

print("爬取失敗")

結果:

檔案儲存成功

雖然我們可以直接在** 上查詢 ip 位址,但在**中還是很困難的。但也是可以實現的。

import requests

url = "ip.asp?ip="

try :

r = requests.get(url+'219.217.224.0')

r.raise_for_status()

print(r.text[-500:])

except :

print("爬取失敗")

結果:

詢" class="form-btn" />

ip138.com ip查詢(搜尋ip位址的地理位置)

本站主資料:黑龍江省哈爾濱市 哈

爾濱工業大學 教育網

可以看到,這是哈爾濱工業大學的 ip 位址。

Python 理解使用requests庫爬取資料

requests庫是爬取資料的第三方庫,安裝方法 pip3 install requests用法 r requests.get url r 是返回的response物件,有五個最常用的屬性 屬性說明 r.status code http返回的請求狀態,200表示成功,400表示失敗 r.text h...

python爬蟲 Requests庫爬取實戰(三)

我們先開始最簡單的抓取頁面,import requests 匯入requests庫 url try r requests.get url 通過requests庫的get方法 r.raise for status 判斷返回的狀態碼是否為200,不是200返回異常 print r.text 輸出網頁的源...

簡單的爬蟲入門,requests庫

網路爬蟲,可以認為是 模擬瀏覽器自動瀏覽網頁 99 都是 一段程式,乙個指令碼 自動批量採集我們需要的各種資源 文字 主要方法 requests.request 構造乙個請求,支撐一下各方法的基礎方法 requests.get 獲取html網頁的主要方法,對應於http中的get requests....