定義乙個爬蟲的通用框架
import requests
defgethtmltext
(url)
:"""
爬蟲通用框架,
"""try:
#捕捉到錯誤後會執行except的語句
r=requests.get(url)
r.raise_for_status(
)# 返回值若為200,則表示正常訪問**,繼續執行,否則會返回httperror錯誤
return r.text
except
:return
'產生異常'
呼叫上述的爬蟲框架
gethtmltext("")
#mozilla/5.0是乙個標準的瀏覽器身份標識字段,可以將爬蟲程式偽裝成某個瀏覽器
kv=r = requests.get(
"100012015134.html#crumb-wrap"
,headers=kv)
#將header中的user-agent修改為mozilla/5.0
#mozilla/5.0是乙個標準的瀏覽器身份標識字段,可以將爬蟲程式偽裝成某個瀏覽器
kv=r = requests.get(
"",headers=kv)
r.status_code
r.text
天蛛爬蟲學習筆記 HTTP基礎知識
1.uri url urn的關係 uri全稱為 uniform resource identifier,即統一資源標誌符,url 的全稱為 universal resource locator,即統一資源定位符,urn全稱為 universal resource name,即統一資源名稱。其中url...
python爬蟲學習筆記之requests庫
通用 框架 r requests.get url r 表示response物件,包含爬蟲返回的內容。屬性 說明r.status code http請求的返回狀態,200表示連線成功,404表示失敗 r.texthttp r.encoding 從http header中猜測的響應內容編碼方式 從內容中...
Python爬蟲之二 學習Request
這篇文章是接上篇 主要介紹另外一種請求方式。request。由於urlopen 方法引數有限,並不能滿足我們所有的需求,因此,request就應用而生啦。import urllib.request request urllib.request.request response urllib.requ...