- python中原生的一款基於網路請求的模組,功能非常強大,簡單便捷,效率極高。
作用:模擬瀏覽器發請求。
如何使用:(requests模組的編碼流程)
- 指定url
- 發起請求
- 獲取響應資料
- 持久化儲存
環境安裝:
- pip install requests
練習:1.爬取搜狗首頁的頁面資料
# 需求:爬取搜狗首頁資料
import requests
# -指定url
url =
''# 發起請求
response = requests.get(url=url)
# 獲取響應資料
page_text = response.text
print
(page_text)
# 持久化儲存
with
open
('./sogou.html'
,'w'
, encoding=
'utf-8'
)as fp:
fp.write(page_text)
練習鞏固:
1.爬取搜狗指定詞條對應的搜尋結果頁面(簡易網頁採集器)(
import requests
# 指定ua,通過ua檢測
headers =
# 指定url
url =
'web'
# 處理url中攜帶的引數
kw =
input
("請輸入要查詢的內容:"
)param =
# 傳送請求
page_text = requests.get(url=url,params=param,headers=headers)
.text
# print(page_text)
# 持久化儲存得到的資料
filename = kw+
'.html'
with
open
(filename,
'w',encoding=
'utf-8'
)as fp:
fp.write(page_text)
print
(filename,
'儲存成功'
)
import requests
post_url =
''headers =
kw =
input
("請輸入要翻譯的內容:"
)data =
page_json = requests.post(url=post_url,data=data,headers=headers)
.json(
)print
(page_json)
3.爬取豆瓣電影分類排行榜中的電影詳情資料(
import requests
import json
# 指定url
url =
''headers =
param =
page_json = requests.get(url=url, params=param, headers=headers)
.json(
)# print(page_json)
fp =
open
('./douban.json'
,'w'
, encoding=
'utf-8'
)json.dump(page_json, fp=fp, ensure_ascii=
false
)
4.爬取肯德基餐廳位址查詢(
import requests
import json
url =
''headers =
kw =
input()
page =
input
('請輸入查詢的頁數:'
)data =
page_json = requests.post(url=url, data=data, headers=headers)
.json(
)page_txet = requests.post(url=url,data=data,headers=headers)
.text
filename = kw + page +
'.html'
with
open
(filename,
'w',encoding=
'utf-8'
)as fp:
fp.write(page_txet)
# filename = kw + page + '.json'
# with open(filename, 'w', encoding='utf-8') as fp:
# json.dump(page_json, fp=fp, ensure_ascii=false)
print
('查詢完畢'
)
5.爬取中華人民共和國化妝品生產許可證相關資料(
import requests
import json
url =
''headers =
# 儲存企業id
id_list =
# 儲存所有企業詳情資料
all_data_list =
# 分頁操作
for page in
range(1
):page =
str(page)
data =
# 獲取id
ids_json = requests.post(url=url, headers=headers, data=data)
.json(
)# print(ids_json)
for dic in ids_json[
'list']:
'id'])
# print(id_list)
post_url =
''forid
in id_list:
data =
data_json = requests.post(
url=post_url, headers=headers, data=data)
.json(
)# print(data_json)
print
(all_data_list)
#持久化儲存
fp =
open
('./alldata.json'
,'w'
, encoding=
'utf-8'
) json.dump(all_data_list, fp=fp, ensure_ascii=
false
)print
('第'
, page,
'頁爬取完畢'
)
Python爬蟲 模擬瀏覽器訪問 Requests
有時候爬蟲需要加入請求頭來偽裝成瀏覽器,以便更好的抓取資料.開啟瀏覽器chrome找到user agent進行複製 headers headers get方法新增請求頭 print res.text 執行結果 requests庫不僅有get 方法,還有post 等方法.post 方法用於提交表單來爬...
Python爬蟲學習
最近由於 需要,用python寫了爬蟲爬取資料。在這個過程中,認識到學習一門語言最好的辦法是動手,別無技巧。在動手程式設計的過程中,遇到了很多意想不到的問題,當然也學習了很多書本上不會講述的知識,感覺這才是真正的學習知識。在這個過程中,遇到的乙個問題讓我花費了很久時間,留下了很深的印象。擔心會隨著時...
Python學習 爬蟲
在搜尋python知識的時候一直看到爬蟲相關知識,感覺挺好玩的,打算簡單了解一下。1 找到伺服器主機,向伺服器發出乙個請求,伺服器經過解析之後,傳送給使用者的瀏覽器 html js css 等檔案,瀏覽器解析出來,使用者便可以看到形形色色的了。因此,使用者看到的網頁實質是由 html 構成的,爬蟲爬...