python爬蟲 豆瓣電影TOP100

2021-10-04 17:16:57 字數 1630 閱讀 7658

背景**:借我 - 謝春花

今天學習學得頭大,放鬆之餘,水一篇文章好了——

用python爬蟲豆瓣電影top100的簡易資訊

要收集的資訊包括:每部電影的標題導演上映年份評分以及引用

環境:python 2.7

系統:macos 10.13.1

模組:beautifulsoup、requests、pandas

過程很簡單,分析一下網頁結構,然後用beautifulsoup分分鐘寫好呀:

from beautifulsoup import beautifulsoup

import requests

import pandas as pd

movies =

n = 1

for i in range(4): # 每頁25部電影,共需搜尋4頁

page = requests.get(''.format(i))

soup = beautifulsoup(page.text) # 用beautifulsoup對html原始碼進行處理

info_list = soup.findall('ol')[0].findall('li') # 觀察可知電影資訊在第1個標籤的各個標籤裡

for info in info_list:

movie = ).text, # title在class為"title"的標籤裡

'rating_num':info.find('span', attrs=).text, # 如上

'quote':info.find('span', attrs=).text, # 如上

'director':str(info.find('p')).split('導演: ')[1].split(' ')[0], # 導演資訊在字串中,需要特殊提取

'year':str(info.find('p')).split('

')[-1].strip().split('&')[0] # 同上

}n += 1

df = pd.dataframe(movies)[['ranking', 'title', 'rating_num', 'year', 'director', 'quote']] # 指定dataframe的列的順序

df.to_csv('douban_movie.csv', encoding='utf-8', index=false)

最後輸出到douban_movie.csv裡,開啟後是這樣的~

今天先做個**的儲備,以後如果要收集影評做一些情感分析的話,就方便一些了。

如果想收集電影更多的資訊,比如說影評之類的,那麼就要在建立movie字典之前,從info裡提取電影頁的url並用request獲得html原始碼,再提取一下就好啦。

Python爬蟲實戰 豆瓣電影top250

很多天沒有發部落格了,這幾天在弄乙個文字相似度的專案,問題乙個接乙個,忙活了好幾天。今天分享一下之前的寫的爬蟲,用來爬豆瓣電影的top250。首先,f12看看電影的資訊在 每個電影的資訊都在這個class item 的塊中,好的,這下好辦了,找到這個塊,就可以乙個個把裡面的東西抓出來了。好了,原始碼...

python爬蟲獲取豆瓣電影top250的名字

最近面試了乙個爬蟲實習崗位,不知道能不能過,先學習一下爬蟲練練手.import re import urllib.request import urllib.error defget douban pages index 1 電影排名 偽裝成瀏覽器 header for i in range 0 1...

python爬蟲 豆瓣電影

最近學習python 順便寫下爬蟲練手 爬的是豆瓣電影排行榜 python版本2.7.6 安裝 beautiful soup sudo apt get install python bs4 安裝 requests sudo apt get install python requests下面是py a...