requests模組是python中原生的基於網路請求的模組,其主要作用是用來模擬瀏覽器發起請求。功能強大,用法簡潔高效。在爬蟲領域中佔據著半壁江山的地位。
因為在使用urllib模組的時候,會有諸多不便之處,總結如下:
手動處理url編碼
手動處理post請求引數
處理cookie和**操作繁瑣
自動處理url編碼
自動處理post請求引數
簡化cookie和**操作
安裝:pip install requests
使用流程
指定url
基於requests模組發起請求
獲取響應物件中的資料值
持久化儲存
# 2020-10-25
import requests
import json
if __name__==
"__main__"
:# 指定url
url =
''# ua偽裝
headers =
id_list =
# 儲存企業id
id_alllist =
# 儲存所有企業的詳細資訊
# 引數的封裝
for page in range(1,3):
page = str(page)
data =
# 傳送請求
response = requests.post(url=url,headers=headers,data=data)
# 獲取資料
page_idlist= response.json(
)#字典型別
# print(page_idlist)
for dic in page_idlist[
'list'
]:'id'])
print(page)
print(id_list)
# 通過id 獲取企業詳情資料
post_url =
''forid
in id_list:
post_data =
response = requests.post(url=post_url,headers=headers,data=post_data)
all_ms =response.json(
)#print(all_ms)
with open(
'./06_all_list.json','w',encoding=
'utf-8'
) as fp:
json.dump(id_alllist,fp=fp,ensure_ascii=false)
print(
'爬取完成!'
)
python之爬蟲(二)爬蟲的原理
在上文中我們說了 爬蟲就是請求 並提取資料的自動化程式。其中請求,提取,自動化是爬蟲的關鍵!下面我們分析爬蟲的基本流程 發起請求 通過http庫向目標站點發起請求,也就是傳送乙個request,請求可以包含額外的header等資訊,等待伺服器響應 獲取響應內容解析內容 得到的內容可能是html,可以...
python爬蟲之urllib 二
urllib.error可以接收urllib.request產生的異常,urllib.error有三個方法,如下 urlerror是oserror的乙個子類,httperror是urlerror的乙個子類,伺服器上http的響應會返回乙個狀態碼,根據這個http狀態碼,我們可以知道我們的訪問是否成功...
基於python的爬蟲
本次初學,參考的資料見 功能主要是抓取韓寒的部落格內容,以及儲存 到 hanhan的資料夾中,執行環境實在linux下的。見 具體 如何 usr bin env python coding utf 8 import urllib import time url 60 con urllib.urlop...