任務要求:爬取豆瓣電影top250的電影名、評分、短評、評分人數等資訊
通過部落格對beautifulsoup4的簡單介紹,現在開始實戰啦,沒有看過的,可以先看看推薦閱讀:使用xpath爬取資料
jupyter notebook使用
beautifulsoup爬取豆瓣電影top250
一篇文章帶你掌握requests模組
python網路爬蟲基礎–beautifulsoup
直接上**
# -*- coding: utf-8 -*-
"""created on mon dec 22 12:03:06 2020
@author: kun
"""import requests
from bs4 import beautifulsoup
import pandas as pd
from fake_useragent import useragent
ua = useragent(
)headers =
defget_movies()
: movie_list =
for i in
range(0
,10):
link =
''+str
(i *25)
r = requests.get(link, headers=headers, timeout=10)
soup = beautifulsoup(r.text,
"lxml"
) div_list = soup.find_all(
'div'
, class_=
'info'
)for each in div_list:
title = each.find(
'div'
, class_=
'hd'
).a.span.text.strip(
) info = each.find(
'div'
, class_=
'bd'
).p.text.strip(
) info = info.replace(
"\n"
," "
).replace(
"\xa0"
," "
) info =
' '.join(info.split())
rating = each.find(
'span'
, class_=
'rating_num'
).text.strip(
) num_rating = each.find(
'div'
, class_=
'star'
).contents[7]
.text.strip(
)try
: quote = each.find(
'span'
, class_=
'inq'
).text.strip(
)except
: quote =
""
[title, info, rating, num_rating, quote]
) df = pd.dataframe(movie_list,columns=
['電影名稱'
,'資訊'
,'評分'
,'評價人數'
,'短評'
],index=
none
)
df.to_csv(
"douban.csv"
)return movie_list
movies = get_movies(
(movies)
到這裡就結束了,如果對你有幫助你,歡迎點讚關注,你的點讚對我很重要利用beautiful soup爬取歷史天氣資料
利用beautiful soup爬取歷史天氣資料 本文將會涉及requests.get 返回結果為404時,採用模擬瀏覽器訪問的模式。以及當遇到幾個相同的標籤時的處理辦法。由於本人還是個小白,故可能有不好的地方 參考了 以及 文章爬取的 為 如下 目標 爬取2019年香洲的天氣資料,包括最高氣溫,最...
BeautifulSoup技術爬取豆瓣TOP250
1.環境 vs2019 2.首先安裝re,beautifulsoup,codecs,requests庫,可以用 pip安裝 功能 將top250的電影名,評分,評價人數,鏈結,影評獲取下來並生成.html檔案效果如圖 先展示爬蟲函式 def pachong url cc requests.get u...
學習日記 使用BeautifulSoup爬取小說
半個月前入坑了python,近幾天看到csdn上有一些關於美麗的湯 beautifulsoup 的介紹和使用方法,於是自己也試著寫了乙個爬蟲。小白的學習日記,若有不當之處,歡迎大神們指點!使用python版本 python3.8 隨便在網上搜了個 試著爬下來。鏈結 檢視網頁的源 發現文章內容都是p標...