準備過程
1.抓取網頁的過程
準備好http請求(http request)->提交對應的請求->獲得返回的響應(http response)->獲得網頁原始碼
2.get還是post
3.headers(可選)
在某些情況下,直接抓取是被禁止的,此時需要提供乙個headers來告訴對方我不是機械人
例如:
1defgethtml(url):
2 header=
3 request=urllib2.request(url,none,header)
4 response=urllib2.urlopen(request)
5 text=response.read()
6return text
4.post data(可選)
某些情況下是需要登入某**的,此時需要提交帳號密碼之類的,則需要使用post data
在ie中稱為request body,chrome中成為post data
5.cookie(可選)
一般來說,模擬登陸的時候往往會涉及到cookie
6.其他(**,最大超時時間timeout)
內容分析
1.對於html原始碼,呼叫beautifulsoup庫
2.正規表示式
本文參考了
可以說是乙個簡化版,想看的可以去看原文
ps:博主提供了很多計算機方面的資料,讀後幫助很大,有興趣的可以過去看看
python抓取網頁過程
準備過程 1.抓取網頁的過程 準備好http請求 http request 提交對應的請求 獲得返回的響應 http response 獲得網頁原始碼 2.get還是post 3.headers 可選 在某些情況下,直接抓取是被禁止的,此時需要提供乙個headers來告訴對方我不是機械人 例如 1 ...
Python抓取網頁
在python中,使用urllib2這個元件來抓取網頁。coding utf 8 urllib2是python的乙個獲取urls uniform resource locators 的元件。import urllib2 它以urlopen函式的形式提供了乙個非常簡單的介面 response urll...
Python網頁抓取
coding utf 8 import urllib 匯入模組 print dir urllib 檢視urllib方法 print help urllib.urlopen 檢視幫助文件 url 定義 html urllib.urlopen url 開啟url print html.read urlo...