import re
import requests
try:
r=''
for k in range(10):
url=''+str(25*k)
headers =
r+=requests.get(url,headers=headers).text
print("第"+str(k+1)+"個網頁抓取成功")
namelist=re.findall(r'
gradelist=
for grade in gradelist:
namelist=
for name in namelist:
#format="^15}\t"
format="^20}\t"
print(format.format("豆瓣名次","電影","評分",chr(12288)))
for i in range(len(namelist)):
print(format.format(i+1,namelist[i],gradelist[i],chr(12288)))
except:
print('')
執行結果:
只要電影名含英文,數字或空格等非中文本元,就會出現對不齊的問題,解決不了
Python爬取豆瓣Top250
from selenium import webdriver import requests import time import os url driver webdriver.chrome c chromedriver win32 chromedriver.exe driver.get url ...
Python爬蟲實戰 豆瓣電影top250
很多天沒有發部落格了,這幾天在弄乙個文字相似度的專案,問題乙個接乙個,忙活了好幾天。今天分享一下之前的寫的爬蟲,用來爬豆瓣電影的top250。首先,f12看看電影的資訊在 每個電影的資訊都在這個class item 的塊中,好的,這下好辦了,找到這個塊,就可以乙個個把裡面的東西抓出來了。好了,原始碼...
Python 爬蟲 抓取豆瓣讀書TOP250
coding utf 8 author yukun import requests from bs4 import beautifulsoup 發出請求獲得html原始碼的函式 def get html url 偽裝成瀏覽器訪問 resp requests.get url,headers heade...