爬取少年的你的豆瓣短評

2021-09-29 00:07:53 字數 983 閱讀 9054

首先這是目標網頁,然後為了簡單決定用最快的提取辦法,我一直覺得爬蟲不一定需要多複雜,往往簡單的幾行**就能完成我們的需求。

決定用requests爬取10頁,然後正則提取,資料存到csv中。

直接上**

import requests

import pandas as pd

import re

defget_content

(url)

: headers =

response=requests.get(url,headers=headers)

response.encoding =

'utf-8'

html=response.text

content=re.findall(r"(.*?)"

,html)

name=re.findall(

"(.*?)"

,html)

return content,name

defmain()

: name=

content=

for i in

range(10

):url =

''.format

(i*20

) i,j=get_content(url)

for x in

range

(len

(i)):)

) data=pd.dataframe(

) data.to_csv(

,encoding=

'utf-8'

)if __name__ ==

'__main__'

: main(

)

python爬取豆瓣網頁短評實戰!

首先我們開啟我的父親母親的網頁介面 鏈結 可以觀察到如下介面以及讀者對本書的評價 接下來我們直接附上 書名 我的父親母親 出版社 南海出版公司 原作名 alfred and emily 譯者 匡詠梅 出版年 2013 1 頁數 238 定價 29.50元 裝幀 精裝 叢書 新經典文庫 萊辛作品 is...

爬取《小王子》豆瓣短評前5頁的短評資料

思考一下,以下 還有什麼更加簡潔的寫法?import requests from lxml import etree import pandas as pd urls format str i for i in range 1,6 通過觀察的url翻頁規律,使用for迴圈得到5個鏈結,儲存到urls...

爬取豆瓣讀書的書籍(一)

環境準備 python3 pycharm 2018.3.4 x64 google chrome瀏覽器 爬取豆瓣讀書書籍的基本步驟 1 在pycharm中匯入urllib模組的request 2 獲取豆瓣讀書網的url資訊和user agent 3 用urlopen開啟 並傳送請求 4 用urlret...