首先我們開啟我的父親母親的網頁介面:鏈結(可以觀察到如下介面以及讀者對本書的評價:
接下來我們直接附上**:
# 書名:我的父親母親
# 出版社: 南海出版公司
# 原作名: alfred and emily
# 譯者: 匡詠梅
# 出版年: 2013-1
# 頁數: 238
# 定價: 29.50元
# 裝幀: 精裝
# 叢書: 新經典文庫·萊辛作品
# isbn: 9787544263863
import requests
from lxml import etree
import pandas as pd
#通過觀察的url翻頁的規律,使用for迴圈得到10個鏈結,儲存到urls列表中
urls=[''.format(str(i)) for i in range(1, 11, 1)]
comments = #初始化用於儲存短評的列表
for url in urls: #使用for迴圈分別獲取每個頁面的資料,儲存到comments列表
r = requests.get(url).text
s = etree.html(r)
file = s.xpath('//div[@class="comment"]/p/text()')
comments = comments + file
df = pd.dataframe(comments) #把comments列表轉換為pandas dataframe
df.to_excel('190.xlsx') #使用pandas把資料儲存到excel**
結果如下: 爬取少年的你的豆瓣短評
首先這是目標網頁,然後為了簡單決定用最快的提取辦法,我一直覺得爬蟲不一定需要多複雜,往往簡單的幾行 就能完成我們的需求。決定用requests爬取10頁,然後正則提取,資料存到csv中。直接上 import requests import pandas as pd import re defget ...
爬取《小王子》豆瓣短評前5頁的短評資料
思考一下,以下 還有什麼更加簡潔的寫法?import requests from lxml import etree import pandas as pd urls format str i for i in range 1,6 通過觀察的url翻頁規律,使用for迴圈得到5個鏈結,儲存到urls...
python爬取豆瓣影評
看的別人的 爬取某部影片的影評 沒有模擬登入只能爬6頁 encoding utf 8 import requests from bs4 import beautifulsoup import re import random import io import sys import time 使用se...