以下案例僅為個人學習,無侵權意識
爬取搜狗指定詞條對應的搜尋結果頁面(簡易網頁採集器):
#!/usr/bin/env python
# encoding: utf-8
"""@file: 獲取搜狗首頁.py
@time: 2020/2/17 9:14
"""import requests
if __name__ ==
'__main__'
:# step1.指定url
url =
""# step2.發起請求
# get方法會返回乙個響應物件
response = requests.get(url=url)
# step3.獲取響應資料
page_text = response.text
print
(page_text)
# step4.持久化儲存
with
open
('./sogou.html'
,'w'
, encoding=
'utf-8'
)as fp:
fp.write(page_text)
print
('爬取資料結束!!!'
)
#!/usr/bin/env python
# encoding: utf-8
"""@time: 2020/2/17 12:51
"""import json
import requests
defpost_bai_du()
:# 1、指定url
post_url =
''# 2、進行ua偽裝
headers =
# 3、post請求引數處理(同get請求一致)
word =
input
('enter a word:'
) data =
# 4、傳送請求
response = requests.post(url=post_url, data=data, headers=headers)
# 5、獲取響應資料,.json()方法返回的是obj(如果確認相應的資料是json型別的,才可以使用json())
response.json(
) dic_obj = response.json(
)print
(dic_obj)
# 持久化儲存(即時翻譯不需要)
# filename = word + '.json'
# fp = open(filename, 'w', encoding='utf-8')
# json.dump(dic_obj, fp=fp, ensure_ascii=false)
print
('over!'
)if __name__ ==
'__main__'
: post_bai_du(
)
爬取豆瓣電影分類排行榜 中的電影詳情資料:
#!/usr/bin/env python
# encoding: utf-8
"""@file: 爬取豆瓣電影分類排行榜.py
@time: 2020/2/17 13:21
"""import requests
import json
defget_dou_ban()
: url =
'j/chart/top_list'
param =
headers =
response = requests.get(url=url, params=param, headers=headers)
list_data = response.json(
)#持久化儲存
# fp = open('./douban.json', 'w', encoding='utf-8')
# json.dump(list_data, fp=fp, ensure_ascii=false)
print
(list_data)
print
('over!'
)if __name__ ==
'__main__'
: get_dou_ban(
)
爬取肯德基餐廳查詢中指定地點的餐廳資料:
#!/usr/bin/env python
# encoding: utf-8
"""@file: 根據城市查詢肯德基餐廳資訊.py
@time: 2020/2/17 20:56
"""import requests
defpost_kfc()
:pass
url =
""word =
input
('請輸入城市:'
) data =
headers =
response = requests.post(url=url, data=data, headers=headers)
list_data = response.json(
)print
(list_data)
print
('over!'
)if __name__ ==
'__main__'
: post_kfc(
)
#!/usr/bin/env python
# encoding: utf-8
"""@file: 國家藥監局化妝品許可證.py
@time: 2020/2/17 21:58
"""import requests
defpost_gy()
:pass
url =
""word =
int(
input
('頁碼:'))
for page in
range(1
, word +1)
: data =
headers =
response = requests.post(url=url, data=data, headers=headers)
list_data = response.json(
)print
(list_data)
print
('over!'
)if __name__ ==
'__main__'
: post_gy(
)
希望通過這些學習案例,讓自己對爬蟲思想有乙個更深的體會,也希望自己更快更好地掌握爬蟲技術 python爬蟲案例 Python爬蟲案例集合
在python2.x裡面有urllib和urllib2 在python3.x裡面就把urllib和urllib2合成乙個urllib urllib3是在python3.x了裡面新增的第三方擴充套件。import urllib.request 向指定的url位址傳送請求,並返回伺服器響應的類檔案物件 ...
python案例 Python爬蟲案例集合
urllib2 在python2.x裡面有urllib和urllib2 在python3.x裡面就把urllib和urllib2合成乙個urllib urllib3是在python3.x了裡面新增的第三方擴充套件。urllib2 官方文件 urllib2 原始碼 urllib2 在 python3....
python爬蟲案例講解 Python爬蟲案例集合
伺服器返回的類檔案物件支援python檔案物件的操作方法 read 方法就是讀取檔案裡的全部內容,返回字串 html response.read 列印響應內容 我們需要稍微偽裝下,要不然第一步就會被反爬蟲發現 usr bin env python coding utf 8 import urllib...