python 輕量級爬蟲開發2

urllib2 ：python官方基礎模組

request ：第三方包更強大

url = > urllib2.urlopen(url)

# coding=utf-8
import urllib2
#直接請求
response = urllib2.urlopen('')
#獲取狀態碼
print response.getcode()
#讀取內容
count = response.read()
print count

簡單的來說就是操作http層通訊報頭，報文。

httpcookieprocessor:有些網頁需要使用者登入才能處理，我們用httpcookieprocess

proxyhandler:有些網頁需要**才能訪問，我們用proxyhandler

httpshandler:有些網頁是加密的https協議，我們使用httpshandler

httpredirecthandler:有些網頁url是自動的調整關係，我們使用httpredirecthandler

#建立cookie容器

cj = cookielib.cookiejar()

#建立乙個opener

#給urllib2安裝opener

urllib2.install_opener(opener)

#使用帶有cookie的urllib2訪問網頁

response = urllib2.urlopen("")

print response.read()

python 輕量級爬蟲開發3

採用beautiful外掛程式建立beautifulsoup物件 from bs4 import beautifulsoup 根據html網頁字串建立beautifulsoup物件 soup beautifulsoup html doc,html文件字串 html.parser html解析器 f...

輕量級爬蟲開發（二）

二簡單爬蟲架構動態執行流程三 url管理器管理待抓取url集合和已抓取的url集合目的在於防止重複和迴圈抓取。url之間往往迴圈指向的，如果不對url進行管理，爬蟲就會不斷的抓取這些url，最糟糕的情況兩個url互相指向，則我們將不停的抓取這兩個url管理器，形成死迴圈。功能 url管理...

Python輕量級爬蟲教程網頁解析器

網頁解析器從網頁中提取我們想要的資料的工具 python的幾種網頁解析器正規表示式模糊匹配結構化解析 html.parser beautifulsoup 第三方外掛程式 lxml 第三方外掛程式網頁解析器之 beautiful soup 首先測試是否安裝beautiful soup4 im...

python 輕量級爬蟲開發2

python 輕量級爬蟲開發3

輕量級爬蟲開發（二）

Python輕量級爬蟲教程 網頁解析器

相關推薦

Python輕量級爬蟲教程網頁解析器