本部分參考:mooc課程:嵩天
import requests
try:
r = requests.get("")
print(r.text)
except:
print("爬取失敗")
但是,我們知道,有些**是會檢視你的user agent,如果你不是瀏覽器,就會阻止你訪問。
解決方法:
import requests
url = "某**"
try:
kv =
r = requests.get(url,headers=kv)
r.raise_for_status()
print(r.text[1000:2000])
except:
print("爬取失敗")
import requests
keyword = input('輸入搜尋關鍵字:')
try:
kv =
r = requests.get("",params=kv)
print(r.request.url)
r.raise_for_status()
print(len(r.text))
print(r.text[1000:2000])
except:
print("爬取失敗")
2.ip位址查詢
# ip位址
import requests
url = ""
try:
r = requests.get(url+adr)
r.raise_for_status()
print(r.text[-500: ])
except:
print("爬取失敗")
3.爬取# 定向獲取
import requests
import os
url = ""
root = "e://markdown//"
path = root+url.split('/')[-1] # 這裡的path不能和root一樣
if not os.path.exists(root):
os.mkdir(root)
r = requests.get(url)
with open(path,'wb') as f:
f.write(r.content)
f.close()
print('爬取成功')
爬蟲初級一
什麼是爬蟲 網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬客戶端 主要指瀏覽器 傳送網路請求,接收請求響應,按照一定的規則,自動地抓取網際網路資訊的程式。原則上,只要是客戶端 主要指瀏覽器 能做的事情,爬蟲都能夠做。爬蟲的用途 資料採集 軟體測試 爬蟲之自動化測試 12306搶票 上的投票 簡訊轟...
爬蟲初級 33號
requests庫是乙個簡潔且簡單的處理http請求的第三方庫,最大的優點是程式編寫更接近正常url訪問過程。requests庫解析 requests庫中網頁請求函式 函式描述 get url timeout n 對應於http的get方式,獲取網頁最常用的方法,可以增加timeout n引數,設定...
初級爬蟲爬取筆趣閣小說
import requests from pyquery import pyquery as pq def get content a response requests.get a response.encoding gbk doc pq response.text text doc conten...