Python 爬取書籍資訊

2021-10-06 20:39:12 字數 1465 閱讀 9478

1.前言

2.環境配置

pycharm,python3,爬蟲庫request,re模組。

3.爬取目標

爬蟲的一般思路:分析目標網頁,確定urlà傳送請求,獲取響應à解析資料à儲存資料。

分析目標:要爬取的目標是所有的書籍資訊,但書籍資訊不只是存在當前網頁,需要找到所有有書籍資訊的網頁,並依次去爬取。

找到頭部資訊:通過瀏覽器的檢查獲取到需要的頭部資訊。

具體步驟如下:

第二步,傳送請求,獲取響應的資料。

獲取資料:直接通過request獲取,就不再多加闡述,只需要多多注重頭部資訊。

第三步:解析資料。

轉換資料:當獲取到網頁的text的資料時,會發現亂碼,這時需要將它的格式轉換為『gbk』。

擷取資料:通過re模組,來擷取資料,re模組是python自帶的模組,具體的用法,可以上python官網檢視。

第四步:儲存資料。

可以通過docx模組,建立乙個文件並儲存。

如下圖:

完整**如下:

import requests

import re

url= 

',booksrespones.text)

isbn = re.findall(r'isbn:(.*?)

',booksrespones.text)

publication_date = re.findall(r'

',booksrespones.text)

press = re.findall(r'出 版  社:(.*?)

',booksrespones.text)

pagination = re.findall(r'頁碼:(.*?)

',booksrespones.text)

formats = re.findall(r'開本:(.*?)

',booksrespones.text)

get_books =  title+author+price+press+publication_date+pagination+formats+isbn

# print(get_books)

for i in get_books:

print(i,end=' / ')

print('\n')

4.總結

這是乙個靜態網頁的爬取,但相較於一般的靜態網頁,他的資訊不只是單純的存放於乙個網頁,需要從這乙個網頁中去找到其它網頁的url並再一次去訪問,才能查出所有的結果。最後提醒大家爬蟲程式規避**經營者設定的反爬蟲措施或者破解伺服器防抓取措施,非法獲取相關資訊,情節嚴重的,有可能構成「非法獲取計算機資訊系統資料罪」。

Python 爬取網頁資訊

對於本次學習爬蟲中的一些總結 1.要熟練掌握基礎知識,包括一些基礎的語法 2.正規表示式的正確使用,建議學習北理工的python爬蟲課程 3.先寫大框架再新增小的功能解析 4.對程式異常處理要熟練,盡量使用try.excep結構 5.對於列表字串資料的基本使用到位,比如增刪改查等 6.思路必須清晰 ...

Python 爬取天氣資訊

第一次python部落格,僅作紀念。import requests import re from bs4 import beautifulsoup requests庫從網上獲取資源,re bs4 庫,用來提取需要的資訊。開啟要爬取的 右擊檢視其源 找到感興趣的內容,如下 2020年01月12日 星期...

python爬取網頁資訊心得

先是乾貨 配置好python之後請在cmd裡敲如下命令 pip install lxml pip install beautifulsoup4 pip install html5lib pip install requests 然後是python 爬取前程無憂網的,import csv import...