人稱君子協議,規定了**中哪些資料是可以被爬取的、哪些**是不可以被爬取的。
相比http協議,它是安全的超文字傳輸協議,採用證書金鑰加密
requests模組:python中原生的一款基於網路請求的模組,功能強大,簡單便捷,相對於urllib模組效率更高。
作用:模擬瀏覽器傳送請求。
如何使用:
import requests
if __name__ == '__main__':
# 第一步:指定url
url = ''
# 第二步:發起請求
response = requests.get(url)
# 第三步:獲取響應資料
page_text = response.text
# print(page_text)
# 第四步:持久化儲存
with open('./搜狗首頁.html', 'w', encoding='utf-8')as fp:
fp.write(page_text)
print('爬取結束')
import requests
if __name__ == '__main__':
url = 'web'
# 處理url攜帶的引數:封裝到字典中
keyword = input('請輸入關鍵字:')
param =
headers =
response = requests.get(url=url, params=param, headers=headers)
page_text = response.text
filename = './簡易網頁採集/' + keyword + '.html'
with open(filename, 'w', encoding='utf-8') as fp:
fp.write(page_text)
print(keyword + ' 儲存成功!')
注意:響應資料為json型別;請求方式為post
import json
import requests
if __name__ == '__main__':
url = ''
keyword = input('請輸入關鍵字:')
data =
headers =
response = requests.post(url=url, data=data, headers=headers)
page_json = response.json()
# print(page_json)
json.dump(page_json, fp=fp, ensure_ascii=false)
print('翻譯結束!已儲存')
import json
import requests
if __name__ == '__main__':
url = ''
num = input('請輸入前多少名資料:')
param =
headers =
response = requests.get(url=url, params=param, headers=headers)
list_data = response.json()
fp = open('./豆瓣排行/豆瓣排行.json', 'w', encoding='utf-8')
json.dump(list_data, fp=fp, ensure_ascii=false)
print('儲存完成')
import json
import requests
if __name__ == '__main__':
url = ''
cname = input('請輸入城市:')
keyword = input('請輸入關鍵字:')
op = 'keyword'
param =
data =
headers =
response = requests.post(url=url, data=data, headers=headers, params=param)
print(response.json())
table_data = response.json()
fp = open('./肯德基餐廳/'+cname+'_'+keyword+'.json', 'w', encoding='utf-8')
json.dump(table_data, fp=fp, ensure_ascii=false)
print('儲存完成')
python爬蟲學習筆記(1)
2.parse模組 遇到了問題 本人使用了anaconda3中的python3環境,進行爬蟲的環境為anaconda中的spyder,使用anaconda具體詳細原因及安裝教程可見 anaconda3詳細安裝使用教程及問題總結 request就是請求的意思,主要用於url資訊的請求 import u...
Python 爬蟲學習筆記1
urllib模組 urllib.requests 開啟和讀取urls urllib.error 包含urllib.requests 產生的常見錯誤,使用try捕捉 urllib.parse 包含即係url方法 urllib.robotparse 解析robots.txt檔案 網頁編碼問題解決 cha...
python網路爬蟲學習筆記(1)
一 三種網頁抓取方法 1 正規表示式 模組使用c語言編寫,速度快,但是很脆弱,可能網頁更新後就不能用了。2 beautiful soup 模組使用python編寫,速度慢。安裝 pip install beautifulsoup4 3 lxml 模組使用c語言編寫,即快速又健壯,通常應該是最好的選擇...