python抓取網頁過程

2021-09-06 22:31:50 字數 798 閱讀 2818

準備過程

1.抓取網頁的過程

準備好http請求(http request)->提交對應的請求->獲得返回的響應(http response)->獲得網頁原始碼

2.get還是post

3.headers(可選)

在某些情況下,直接抓取是被禁止的,此時需要提供乙個headers來告訴對方我不是機械人

例如:

1

defgethtml(url):

2 header=

3 request=urllib2.request(url,none,header)

4 response=urllib2.urlopen(request)

5 text=response.read()

6return text

4.post data(可選)

某些情況下是需要登入某**的,此時需要提交帳號密碼之類的,則需要使用post data

在ie中稱為request body,chrome中成為post data

5.cookie(可選)

一般來說,模擬登陸的時候往往會涉及到cookie

6.其他(**,最大超時時間timeout)

內容分析

1.對於html原始碼,呼叫beautifulsoup庫

2.正規表示式

本文參考了

可以說是乙個簡化版,想看的可以去看原文

ps:博主提供了很多計算機方面的資料,讀後幫助很大,有興趣的可以過去看看

python抓取網頁過程

準備過程 1.抓取網頁的過程 準備好http請求 http request 提交對應的請求 獲得返回的響應 http response 獲得網頁原始碼 2.get還是post 3.headers 可選 在某些情況下,直接抓取是被禁止的,此時需要提供乙個headers來告訴對方我不是機械人 例如 1 ...

Python抓取網頁

在python中,使用urllib2這個元件來抓取網頁。coding utf 8 urllib2是python的乙個獲取urls uniform resource locators 的元件。import urllib2 它以urlopen函式的形式提供了乙個非常簡單的介面 response urll...

Python網頁抓取

coding utf 8 import urllib 匯入模組 print dir urllib 檢視urllib方法 print help urllib.urlopen 檢視幫助文件 url 定義 html urllib.urlopen url 開啟url print html.read urlo...