背景**:借我 - 謝春花
今天學習學得頭大,放鬆之餘,水一篇文章好了——
用python爬蟲豆瓣電影top100的簡易資訊
要收集的資訊包括:每部電影的標題、導演、上映年份、評分以及引用。
環境:python 2.7過程很簡單,分析一下網頁結構,然後用beautifulsoup分分鐘寫好呀:系統:macos 10.13.1
模組:beautifulsoup、requests、pandas
from beautifulsoup import beautifulsoup
import requests
import pandas as pd
movies =
n = 1
for i in range(4): # 每頁25部電影,共需搜尋4頁
page = requests.get(''.format(i))
soup = beautifulsoup(page.text) # 用beautifulsoup對html原始碼進行處理
info_list = soup.findall('ol')[0].findall('li') # 觀察可知電影資訊在第1個標籤的各個標籤裡
for info in info_list:
movie = ).text, # title在class為"title"的標籤裡
'rating_num':info.find('span', attrs=).text, # 如上
'quote':info.find('span', attrs=).text, # 如上
'director':str(info.find('p')).split('導演: ')[1].split(' ')[0], # 導演資訊在字串中,需要特殊提取
'year':str(info.find('p')).split('
')[-1].strip().split('&')[0] # 同上
}n += 1
df = pd.dataframe(movies)[['ranking', 'title', 'rating_num', 'year', 'director', 'quote']] # 指定dataframe的列的順序
df.to_csv('douban_movie.csv', encoding='utf-8', index=false)
最後輸出到douban_movie.csv裡,開啟後是這樣的~
今天先做個**的儲備,以後如果要收集影評做一些情感分析的話,就方便一些了。
如果想收集電影更多的資訊,比如說影評之類的,那麼就要在建立movie字典之前,從info裡提取電影頁的url並用request獲得html原始碼,再提取一下就好啦。
Python爬蟲實戰 豆瓣電影top250
很多天沒有發部落格了,這幾天在弄乙個文字相似度的專案,問題乙個接乙個,忙活了好幾天。今天分享一下之前的寫的爬蟲,用來爬豆瓣電影的top250。首先,f12看看電影的資訊在 每個電影的資訊都在這個class item 的塊中,好的,這下好辦了,找到這個塊,就可以乙個個把裡面的東西抓出來了。好了,原始碼...
python爬蟲獲取豆瓣電影top250的名字
最近面試了乙個爬蟲實習崗位,不知道能不能過,先學習一下爬蟲練練手.import re import urllib.request import urllib.error defget douban pages index 1 電影排名 偽裝成瀏覽器 header for i in range 0 1...
python爬蟲 豆瓣電影
最近學習python 順便寫下爬蟲練手 爬的是豆瓣電影排行榜 python版本2.7.6 安裝 beautiful soup sudo apt get install python bs4 安裝 requests sudo apt get install python requests下面是py a...