爬取豆瓣Top250

2021-10-05 07:23:05 字數 1832 閱讀 6151

requests庫可以自動爬取html頁面,自動網路請求提交。安裝方法:pip install requests

requests庫主要有7個方法:

首先開啟網頁 豆瓣top250 **:

然後f12,得到如下圖:

我們要找的內容在紅框裡面。

這個頁面有25個電影,第乙個頁面

第二個頁面

我們可以觀察到 每個頁面25部電影,一共10個頁面。這裡我們用乙個迴圈:

for i in

range(0

,250,25

):url =

''+str

(i)+

'&filter='

# 爬取豆瓣250

import requests

defgethtml

(url)

:#url = ""

headers =

# user-agent會告訴**伺服器,訪問者是通過什麼工具來請求得,如果爬蟲請求,一般會拒絕,如果是使用者瀏覽器,就會應答

res = requests.get(url,headers=headers)

text = res.text

item =

for i in

range(25

):text = text[text.find(

'alt')+

3:])

return item

defextract

(text)

: text = text.split(

'"')

name = text[1]

ima = text[3]

return name,ima

defmain()

:#print("\t\t".format("排名","電影名稱","連線"))

with

open

('豆瓣top250.csv'

,'a'

,encoding=

'utf-8'

)as f:

for i in

range(0

,250,25

):url =

''+str

(i)+

'&filter='

item = gethtml(url)

for j in

range(25

):f.write(

'\t{}\n'

.format

(str

(i+j+1)

,item[j]))

print

('\t{}\n'

.format

(str

(i+j+1)

,item[j]))

#print(type(item[1]))

爬取豆瓣top250

案例實現 需求 要爬取豆瓣top250的電影資訊資料 標題 評分 引言 詳情頁的url 10頁的資料 都要爬取 並寫入到csv檔案中 第一頁 第二頁 第三頁 第四頁 一共是250條 25頁 分析 page 1 25 總結 第乙個 str格式化的運用 解決辦法 先是找規律 進行格式化的替換 douba...

爬取豆瓣TOP250書單

小白學習爬蟲 爬取豆瓣top250的書,正好本人也喜歡看書 思路分析 這是top250第一頁的鏈結 start 25第二頁的鏈結 start 50第三頁的鏈結 將第一頁鏈結改為?start 0也是可以訪問的,每一頁數字加25,構建10頁 如下 urls start format str i for ...

爬取豆瓣電影TOP250

利用css選擇器對電影的資訊進行爬取 import requests import parsel import csv import time import re class cssspider def init self self.headers defget dp self,url respon...