爬蟲基礎 3

2021-09-24 01:42:08 字數 2196 閱讀 5683

入門小練習

附註:moocpython網路爬蟲與資訊提取

# -*- coding=utf-8 -*-

import requests

from bs4 import beautifulsoup

def gethtmltext(url):

try:

req = requests.get(url)

req.raise_for_status()

print(req.text[:1000])

except:

print("爬取失敗")

if __name__ == '__main__':

# 京東商品頁面爬取

url = ''

# gethtmltext(url)

# 亞馬遜商品頁

url1 = ''

# req = requests.get(url1)

# print(req.status_code)

# print(req.encoding)

# print(len(req.text))

# print(req.text[1000:2000])

# print(req.request.headers) #

# # 如api異常;即web伺服器只允許瀏覽器訪問時,如不設定headers

# kv =

# r = requests.get(url1, headers=kv)

# url2 = ''

# kv =

# r = requests.get(url2, params=kv)

# print(r.status_code) # iso-8859-1

# # print(r.headers)

# print(r.request.headers)

# print(r.encoding)

# print(r.request.url) # ?wd=python

# print(len(r.text)) # 459202

# print(r.text[1000:2000])

# # 360

# url3 = ''

# kv =

# r3 = requests.get(url3, params=kv)

# print(r3.request.url) #

# print(r3.status_code) # 200

# print(r3.encoding) # utf-8

# print(len(r3.text)) # 213248

# print(r3.text[1000:2000])

# 爬取

# **練習

f.write(r5.content)

# ip位址自動歸屬地的自動查詢

kv =

url6 = ""

r6 = requests.get(url6, params=kv)

print(r6.request.url)

print(r6.status_code)

print(r6.encoding) # none

print(r6.text[1700:2000])

>>>output

?ip=202.204.80.112

200none

0" class="form-text" value="202.204.80.112" />

ip138.com ip查詢(搜尋ip位址的地理位置)

本站主資料:北京市海淀區 北京理工大學 教育網

[finished in 0.9s]

python爬蟲基礎(3)爬蟲高階知識

cookie是指 為了鑑別使用者身份,進行繪畫跟蹤而儲存在客戶端本地的資料。本來的含義是指有始有終的一系列動作,而在web中,session物件用來在伺服器儲存特定使用者會話所需要的屬性及資訊。cookie和session他們不屬於http協議範圍,由於http協議無法保持狀態,但實際情況,我們有需...

爬蟲基礎3 反爬手段

1.user agent user agent中文名為使用者 簡稱 ua,它是乙個特殊字串頭,使得伺服器能夠識別客戶使用的作業系統及版本 cpu 型別 瀏覽器及版本 瀏覽器渲染引擎 瀏覽器語言 瀏覽器外掛程式等。2.ip 西次 快 什麼是高匿名 匿名和透明 它們有什麼區別?1.使用透明 ip,對方伺...

Python3 urllib庫爬蟲 基礎

add header 新增報頭url req urllib.request.request url req.add header user agent mozilla 5.0 x11 ubuntu linux x86 64 rv 56.0 gecko 20100101 firefox 56.0 da...