爬取豆瓣電影top 250(、排名、名字、作者、評語)
(1)匯入包
import requests
from bs4 import beautifulsoup
import re
(2)傳送請求
headers=
res=requests.get(url,headers=headers)
print(res.status_code)
新增headers請求頭模擬使用者
並列印狀態碼
(3)獲取頁面
(4)解析頁面
可以發現所有的資訊都在類名為item的div標籤中
通過beautifulsoup找到所有的div
再便利得來的div,使用正則匹配處需要的資訊
(5)資料儲存
這次資料無用,所以沒有儲存。
(6)原始碼
#-*- coding:utf-8 -*-
# author:air
# software: pycharm
#學習交流qq群:916696436
import requests
from bs4 import beautifulsoup
import re
def gethtml(url):
headers=
res=requests.get(url,headers=headers)
print(res.status_code)
soup=beautifulsoup(res.text,'html.parser')
data=soup.find_all('div',attrs=)
for i in data:
i=str(i)
infomatin_list=
#pic_pertern=re.compile(r'.*?',re.s)
pic=re.findall(pic_pertern,i)
#排名num_pertern=re.compile(r'(.*?)',re.s)
num=re.findall(num_pertern,i)
#名字name_pertern=re.compile(r'(.*?)',re.s)
name=re.findall(name_pertern,i)
#作者director_pertern=re.compile(r'(.*?)
',re.s)
director=re.findall(director_pertern,i)
#名言quote_pertern=re.compile(r'(.*?)')
quote=re.findall(quote_pertern,i)
if len(quote)>0:
print(infomatin_list)
for i in range(0,10):
url=''+str(i*25)
gethtml(url)
python3爬取電影資料
爬取電影票房資料,用於統計建模分析。目標 為電影票房資料庫 基本的爬取靜態 的技術,模擬登陸使用的是最簡單的cookies。這種模擬登陸的方式雖然簡單但有很大的侷限性,時效性比較短,也許兩三天後就失效了,或者網頁改版一點也會導致失效。最好的方式還是找到登陸頁面,獲取需要提交的資料和提交方式,模擬我們...
豆瓣熱門電影爬取
import requests import json import csv defgetonepagedata page start url headers params response requests.get start url,headers headers,params params i...
Python爬蟲 爬取豆瓣電影(二)
檢視上乙個專案,請看 上乙個專案中獲取到了一定數量的電影url資訊,這次來獲取單個電影的電影詳情。對傳遞的url返回乙個名為soup的beautifulsoup物件 defget url html soup url header request body.get header proxies req...