首先這是目標網頁,然後為了簡單決定用最快的提取辦法,我一直覺得爬蟲不一定需要多複雜,往往簡單的幾行**就能完成我們的需求。
決定用requests爬取10頁,然後正則提取,資料存到csv中。
直接上**
import requests
import pandas as pd
import re
defget_content
(url)
: headers =
response=requests.get(url,headers=headers)
response.encoding =
'utf-8'
html=response.text
content=re.findall(r"(.*?)"
,html)
name=re.findall(
"(.*?)"
,html)
return content,name
defmain()
: name=
content=
for i in
range(10
):url =
''.format
(i*20
) i,j=get_content(url)
for x in
range
(len
(i)):)
) data=pd.dataframe(
) data.to_csv(
,encoding=
'utf-8'
)if __name__ ==
'__main__'
: main(
)
python爬取豆瓣網頁短評實戰!
首先我們開啟我的父親母親的網頁介面 鏈結 可以觀察到如下介面以及讀者對本書的評價 接下來我們直接附上 書名 我的父親母親 出版社 南海出版公司 原作名 alfred and emily 譯者 匡詠梅 出版年 2013 1 頁數 238 定價 29.50元 裝幀 精裝 叢書 新經典文庫 萊辛作品 is...
爬取《小王子》豆瓣短評前5頁的短評資料
思考一下,以下 還有什麼更加簡潔的寫法?import requests from lxml import etree import pandas as pd urls format str i for i in range 1,6 通過觀察的url翻頁規律,使用for迴圈得到5個鏈結,儲存到urls...
爬取豆瓣讀書的書籍(一)
環境準備 python3 pycharm 2018.3.4 x64 google chrome瀏覽器 爬取豆瓣讀書書籍的基本步驟 1 在pycharm中匯入urllib模組的request 2 獲取豆瓣讀書網的url資訊和user agent 3 用urlopen開啟 並傳送請求 4 用urlret...