本文是中國大學mooc上的python網路爬蟲與資訊提取 課程中的筆記,是五個基本的爬蟲操作,個人覺得其中的方法比較常用,因此記錄下來了。
**:
import requests
url = ""
try :
r = requests.get(url)
r.raise_for_status()
print(r.text[:1000])
except :
print("爬取失敗")
執行結果:
可以通過 params 傳遞引數,例如,獲取搜尋 python 的網頁。
import requests
keyword = "python"
url = ""
try :
kv =
r = requests.get(url, params=kv)
print(r.request.url)
r.raise_for_status()
print(len(r.text))
except :
print("爬取失敗")
結果:
?wd=pythonocean>360 搜尋**:428599
import requests
keyword = "python"
url = ""
try :
kv =
r = requests.get(url, params=kv)
print(r.request.url)
r.raise_for_status()
print(len(r.text))
except :
print("爬取失敗")
結果:
print("檔案儲存成功")
else :
print("檔案已存在")
except :
print("爬取失敗")
結果:
檔案儲存成功雖然我們可以直接在** 上查詢 ip 位址,但在**中還是很困難的。但也是可以實現的。
結果:import requests
url = "ip.asp?ip="
try :
r = requests.get(url+'219.217.224.0')
r.raise_for_status()
print(r.text[-500:])
except :
print("爬取失敗")
可以看到,這是哈爾濱工業大學的 ip 位址。詢" class="form-btn" />
ip138.com ip查詢(搜尋ip位址的地理位置)
本站主資料:黑龍江省哈爾濱市 哈
爾濱工業大學 教育網
Python 理解使用requests庫爬取資料
requests庫是爬取資料的第三方庫,安裝方法 pip3 install requests用法 r requests.get url r 是返回的response物件,有五個最常用的屬性 屬性說明 r.status code http返回的請求狀態,200表示成功,400表示失敗 r.text h...
python爬蟲 Requests庫爬取實戰(三)
我們先開始最簡單的抓取頁面,import requests 匯入requests庫 url try r requests.get url 通過requests庫的get方法 r.raise for status 判斷返回的狀態碼是否為200,不是200返回異常 print r.text 輸出網頁的源...
簡單的爬蟲入門,requests庫
網路爬蟲,可以認為是 模擬瀏覽器自動瀏覽網頁 99 都是 一段程式,乙個指令碼 自動批量採集我們需要的各種資源 文字 主要方法 requests.request 構造乙個請求,支撐一下各方法的基礎方法 requests.get 獲取html網頁的主要方法,對應於http中的get requests....