requests庫為我們提供了乙個封裝好的 庫函式, 使用更為簡便
爬蟲步驟依然跟以前一樣
新增爬取**的url資訊,
用**獲得網頁資訊
資料分析
資料儲存
# resquests 庫的函式就相對簡單
import requests
url = requests.get(url)
# 呼叫get 函式即可取代urllib.request.urlopen函式,
response = requests.get(url)
# 通過content 屬性, 獲取**資訊, content 屬性返回值為二進位制
data = response.content.decode(
'utf-8'
)# 除了content 屬性,還有乙個text 屬性方法, 是requests庫自動識別的, 因為是自動識別的 所以可能會產生些意料之外的資料
data2 = response.text
下面為第一階段學習, 熟悉requests庫的基本函式呼叫,以及獲得到的各種資訊
import requests
class
res(
object):
def__init__
(self)
:# 新增url
url =
""# 新增頭部資訊, 瀏覽器資訊
headers =
# 在get 方法中可以新增頭部資訊
self.response = requests.get(url, headers=headers)
defrun
(self):
data = self.response.content.decode(
'utf-8'
)# 1. 獲取請求頭的資訊
request_headers = self.response.request.headers
# 2. 獲取相應頭資訊
response_headers = self.response.headers
# 3. 獲取相應的狀態碼
code = self.response.status_code
# 4. 獲取請求的cookie
resquest_cookie = self.response.request._cookies
# 5. 獲取相應的cookie
response_cookie = self.response.cookies
resquest庫中的get方法是基於request.request 中延伸的乙個方法
例如:request.get(url, params=params, headers=headers)
等於request.request.(『get』, params=params, headers=headers)
5re庫的使用
9.match物件的屬性 string 待匹配文字 re 匹配時使用的pattern物件 正規表示式 pos 正規表示式搜尋文字的開始位置 endpos 正規表示式搜尋文字的結束位置 10.match物件的方法 group 0 獲取匹配後的字串 start 匹配字串在原始字串的開始位置 end 匹配...
python爬蟲 re庫(正則)
1.re.match re.match嘗試從字元創的起始位置匹配乙個模式,如果不是起始位置匹配成功的話,就會返回none。re.match pattern,string,flags 0 2.最常規的匹配 import re content hello 123 4567 world this is a...
python爬蟲之re模組
傳送門python爬蟲之正規表示式 match 從開始的位置進行匹配。如果開始的位置沒有匹配到。就直接失敗了。text hello ret re.match h text print ret.group 在字串中找到第乙個滿足條件的。text hello ret re.search e text p...