python爬蟲筆記(1)

2021-10-18 10:06:16 字數 2599 閱讀 1553

人稱君子協議,規定了**中哪些資料是可以被爬取的、哪些**是不可以被爬取的。

相比http協議,它是安全的超文字傳輸協議,採用證書金鑰加密

requests模組:python中原生的一款基於網路請求的模組,功能強大,簡單便捷,相對於urllib模組效率更高。

作用:模擬瀏覽器傳送請求。

如何使用:

import requests

if __name__ == '__main__':

# 第一步:指定url

url = ''

# 第二步:發起請求

response = requests.get(url)

# 第三步:獲取響應資料

page_text = response.text

# print(page_text)

# 第四步:持久化儲存

with open('./搜狗首頁.html', 'w', encoding='utf-8')as fp:

fp.write(page_text)

print('爬取結束')

import requests

if __name__ == '__main__':

url = 'web'

# 處理url攜帶的引數:封裝到字典中

keyword = input('請輸入關鍵字:')

param =

headers =

response = requests.get(url=url, params=param, headers=headers)

page_text = response.text

filename = './簡易網頁採集/' + keyword + '.html'

with open(filename, 'w', encoding='utf-8') as fp:

fp.write(page_text)

print(keyword + ' 儲存成功!')

注意:響應資料為json型別;請求方式為post

import json

import requests

if __name__ == '__main__':

url = ''

keyword = input('請輸入關鍵字:')

data =

headers =

response = requests.post(url=url, data=data, headers=headers)

page_json = response.json()

# print(page_json)

json.dump(page_json, fp=fp, ensure_ascii=false)

print('翻譯結束!已儲存')

import json

import requests

if __name__ == '__main__':

url = ''

num = input('請輸入前多少名資料:')

param =

headers =

response = requests.get(url=url, params=param, headers=headers)

list_data = response.json()

fp = open('./豆瓣排行/豆瓣排行.json', 'w', encoding='utf-8')

json.dump(list_data, fp=fp, ensure_ascii=false)

print('儲存完成')

import json

import requests

if __name__ == '__main__':

url = ''

cname = input('請輸入城市:')

keyword = input('請輸入關鍵字:')

op = 'keyword'

param =

data =

headers =

response = requests.post(url=url, data=data, headers=headers, params=param)

print(response.json())

table_data = response.json()

fp = open('./肯德基餐廳/'+cname+'_'+keyword+'.json', 'w', encoding='utf-8')

json.dump(table_data, fp=fp, ensure_ascii=false)

print('儲存完成')

python爬蟲學習筆記(1)

2.parse模組 遇到了問題 本人使用了anaconda3中的python3環境,進行爬蟲的環境為anaconda中的spyder,使用anaconda具體詳細原因及安裝教程可見 anaconda3詳細安裝使用教程及問題總結 request就是請求的意思,主要用於url資訊的請求 import u...

Python 爬蟲學習筆記1

urllib模組 urllib.requests 開啟和讀取urls urllib.error 包含urllib.requests 產生的常見錯誤,使用try捕捉 urllib.parse 包含即係url方法 urllib.robotparse 解析robots.txt檔案 網頁編碼問題解決 cha...

python網路爬蟲學習筆記(1)

一 三種網頁抓取方法 1 正規表示式 模組使用c語言編寫,速度快,但是很脆弱,可能網頁更新後就不能用了。2 beautiful soup 模組使用python編寫,速度慢。安裝 pip install beautifulsoup4 3 lxml 模組使用c語言編寫,即快速又健壯,通常應該是最好的選擇...