爬蟲 實戰之小實驗

2021-08-13 23:57:30 字數 1367 閱讀 6014

1,首先來乙個最基礎的爬蟲,抓取乙個靜態網頁的**

(1)

# 匯入urllib2 庫

import urllib2

# 向指定的url傳送請求,並返回伺服器響應的類檔案物件,**注意的是com後面要加上乙個/**

response = urllib2.urlopen("")

# 類檔案物件支援 檔案物件的操作方法,如read()方法讀取檔案全部內容,返回字串

html = response.read()

# 列印字串

print html

(2)上面那串**可以進行補強的,因為上面那個太弱了,太簡單了

可以用request進行請求:

import urllib2

# url 作為request()方法的引數,構造並返回乙個request物件

request = urllib2.request("")

# request物件作為urlopen()方法的引數,傳送給伺服器並接收響應

response = urllib2.urlopen(request)

html = response.read()

print html

這裡需要注意的是:新建request例項,除了必須要有 url 引數之外,還可以設定另外兩個引數,那樣子就可以組成乙個完整的http的請求的格式了:

公式是這樣的:request=(url,data(預設空),headers(預設空))

1,data(預設空):是伴隨 url 提交的資料(比如要post的資料),同時 http 請求將從 "get"方式 改為 "post"方式。

2,headers(預設空):是乙個字典,包含了需要傳送的http報頭的鍵值對。

2,學會使用user-agent(使用者的**)
import urllib2

#注意這裡**的後面一定要加乙個/

url = ""

#ie 9.0 的 user-agent,包含在 ua_header裡

ua_header =

# url 連同 headers,一起構造request請求,這個請求將附帶 ie9.0 瀏覽器的user-agent

request = urllib2.request(url, headers = ua_header)

# 向伺服器傳送這個請求,伺服器就會反饋回來

response = urllib2.urlopen(request)

html = response.read()

print html

實戰 python爬蟲經典小案例彙總

所有例項 github位址 開始最好模仿,不要自己寫,錯了找不到原因 應用 搶票,投票,報告分析,飲食地圖,輿情監控 儲存資料 的方法大概可以分為幾類 儲存文字 儲存二進位制檔案 包括 儲存到資料庫 1.首先是獲取目標頁面 2.解析獲取的網頁中的元素,唯一定位,取得自己想要的 借助各種庫工具,分析頁...

Python爬蟲實戰之解密HTML

1.增加本人csdn訪問量 2.當作乙個python的練手專案 3.想寫出更優質的部落格技術文章,不再為了訪問量去寫文章。author ytouch date 2019 07 27 this py is used for brushing pageview for csdn 匯入相關爬蟲庫和解析xm...

python爬蟲實戰

python python基礎 python快速教程 python學習路線圖 python大資料學習之路 python爬蟲實戰 python pandas技巧系 量化小講堂 python機器學習入門資料梳理 學習群 大資料 python資料探勘2 323876621 r r語言知識體系 怎樣學習r ...