通用**框架
r = requests.get(url)
r 表示response物件,包含爬蟲返回的內容。 屬性
說明r.status_code
http請求的返回狀態,200表示連線成功,404表示失敗 r.texthttp
r.encoding
從http header中猜測的響應內容編碼方式
從內容中分析出的響應內容編碼方式(備選編碼方式) r.contenthttp
.get(url) 表示request物件,構造乙個向伺服器請求資源的request。
方法說明
requests.request()
構造乙個請求,支撐以下各方法的基礎方法
requests.get()
獲取html網頁的主要方法,對應於http的get
requests.head()
獲取html網頁頭資訊的方法,對應於http的head
requests.post()
向html網頁提交post請求的方法,對應於http的post
requests.put()
向html網頁提交put請求的方法,對應於http的put
requests.patch()
向html網頁提交區域性修改請求,對應於http的patch
requests.delete()
向html頁面提交刪除請求,對應於http的delete
各控制訪問引數的使用(均為可選項)
--params--字典或位元組序列,作為引數增加到url中
>>> kv=
>>> r=requests.request('get','',params=kv)
>>> print(r.url)
--data--字典、位元組序列或檔案物件,作為request的內容
>>> kv=
>>> r=requests.request('post','',data=kv)
>>> body='主體內容'
>>> r=requests.request('post','',data=body)
--json--json格式的資料,作為request的內容
>>> kv=
>>> r=requests.request('post','',json=kv)
--headers--字典,http定製頭
>>> hd=
>>> r=requests.request('post','',headers=hd)
--file--字典型別,傳輸檔案
>>> fs=
>>> r=requests.request('post','',files=fs)
--timeout--設定超時時間,秒為單位
>>> r=requests.request('get','',timeout=10)
--proxies--字典型別,設定訪問**伺服器,可以增加登入認證
>>> pxs=
>>> r=requests.request('get','',proxies=pxs)
.get其實也是.request的封裝 實際為.request(『get』,url,params=none,**kwargs)
>>> r=requests.get('')
>>> print(r.status_code)
>>> r.text
>>> r=requests.head('')
>>> r.headers
>>> payload=
>>> r=requests.post('', data= payload)
>>> print(r.text)
>>> payload=
>>> r=requests.put('',data= payload)
>>> print(r.text)
import requests
def gethtmltext(url)
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
return r.rext
except:
return "產生異常"
整理自 python網路爬蟲與資訊提取-嵩天 Python爬蟲筆記之re查詢
記錄利用re查詢元素的常用方法。a z a z 由字母組成 0 9 由數字組成 d 整數 u4e00 u9fa 中文字元 25 0 5 2 0 4 d 1 d 1 9 d 0 255,由大到小分段 re.search pattern,string,flags 0 返回第乙個查詢結果 match物件 ...
python爬蟲之re模組
傳送門python爬蟲之正規表示式 match 從開始的位置進行匹配。如果開始的位置沒有匹配到。就直接失敗了。text hello ret re.match h text print ret.group 在字串中找到第乙個滿足條件的。text hello ret re.search e text p...
Python學習筆記之爬蟲
爬蟲排程端 啟動爬蟲,停止爬蟲,監視爬蟲運 況 網頁解析器 beautiful soup 語法 例如以下 對應的 1 建立beautifulsoap物件 2 搜尋節點 find all,find 3 訪問節點資訊 文件字串,解析器,指定編碼utf 8 print 獲取所有的連線 links soup...