爬蟲初級一

2021-08-20 17:24:54 字數 1310 閱讀 5493

本部分參考:mooc課程:嵩天

import requests

try:

r = requests.get("")

print(r.text)

except:

print("爬取失敗")

但是,我們知道,有些**是會檢視你的user agent,如果你不是瀏覽器,就會阻止你訪問。

解決方法:

import requests

url = "某**"

try:

kv =

r = requests.get(url,headers=kv)

r.raise_for_status()

print(r.text[1000:2000])

except:

print("爬取失敗")

import requests

keyword = input('輸入搜尋關鍵字:')

try:

kv =

r = requests.get("",params=kv)

print(r.request.url)

r.raise_for_status()

print(len(r.text))

print(r.text[1000:2000])

except:

print("爬取失敗")

2.ip位址查詢

# ip位址

import requests

url = ""

try:

r = requests.get(url+adr)

r.raise_for_status()

print(r.text[-500: ])

except:

print("爬取失敗")

3.爬取
# 定向獲取

import requests

import os

url = ""

root = "e://markdown//"

path = root+url.split('/')[-1] # 這裡的path不能和root一樣

if not os.path.exists(root):

os.mkdir(root)

r = requests.get(url)

with open(path,'wb') as f:

f.write(r.content)

f.close()

print('爬取成功')

爬蟲初級一

什麼是爬蟲 網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬客戶端 主要指瀏覽器 傳送網路請求,接收請求響應,按照一定的規則,自動地抓取網際網路資訊的程式。原則上,只要是客戶端 主要指瀏覽器 能做的事情,爬蟲都能夠做。爬蟲的用途 資料採集 軟體測試 爬蟲之自動化測試 12306搶票 上的投票 簡訊轟...

爬蟲初級 33號

requests庫是乙個簡潔且簡單的處理http請求的第三方庫,最大的優點是程式編寫更接近正常url訪問過程。requests庫解析 requests庫中網頁請求函式 函式描述 get url timeout n 對應於http的get方式,獲取網頁最常用的方法,可以增加timeout n引數,設定...

初級爬蟲爬取筆趣閣小說

import requests from pyquery import pyquery as pq def get content a response requests.get a response.encoding gbk doc pq response.text text doc conten...