requests庫可以自動爬取html頁面,自動網路請求提交。安裝方法:pip install requests
requests庫主要有7個方法:
首先開啟網頁 豆瓣top250 **:
然後f12,得到如下圖:
我們要找的內容在紅框裡面。
這個頁面有25個電影,第乙個頁面
第二個頁面
我們可以觀察到 每個頁面25部電影,一共10個頁面。這裡我們用乙個迴圈:
for i in
range(0
,250,25
):url =
''+str
(i)+
'&filter='
# 爬取豆瓣250
import requests
defgethtml
(url)
:#url = ""
headers =
# user-agent會告訴**伺服器,訪問者是通過什麼工具來請求得,如果爬蟲請求,一般會拒絕,如果是使用者瀏覽器,就會應答
res = requests.get(url,headers=headers)
text = res.text
item =
for i in
range(25
):text = text[text.find(
'alt')+
3:])
return item
defextract
(text)
: text = text.split(
'"')
name = text[1]
ima = text[3]
return name,ima
defmain()
:#print("\t\t".format("排名","電影名稱","連線"))
with
open
('豆瓣top250.csv'
,'a'
,encoding=
'utf-8'
)as f:
for i in
range(0
,250,25
):url =
''+str
(i)+
'&filter='
item = gethtml(url)
for j in
range(25
):f.write(
'\t{}\n'
.format
(str
(i+j+1)
,item[j]))
print
('\t{}\n'
.format
(str
(i+j+1)
,item[j]))
#print(type(item[1]))
爬取豆瓣top250
案例實現 需求 要爬取豆瓣top250的電影資訊資料 標題 評分 引言 詳情頁的url 10頁的資料 都要爬取 並寫入到csv檔案中 第一頁 第二頁 第三頁 第四頁 一共是250條 25頁 分析 page 1 25 總結 第乙個 str格式化的運用 解決辦法 先是找規律 進行格式化的替換 douba...
爬取豆瓣TOP250書單
小白學習爬蟲 爬取豆瓣top250的書,正好本人也喜歡看書 思路分析 這是top250第一頁的鏈結 start 25第二頁的鏈結 start 50第三頁的鏈結 將第一頁鏈結改為?start 0也是可以訪問的,每一頁數字加25,構建10頁 如下 urls start format str i for ...
爬取豆瓣電影TOP250
利用css選擇器對電影的資訊進行爬取 import requests import parsel import csv import time import re class cssspider def init self self.headers defget dp self,url respon...