用到的第三方庫:requests,lxml
import requests
from lxml import etree
for i in
range(0
,251,25
):num = i
# 簡單的反爬蟲處理,如果沒有這個,會爬取不了
headers =
url = f''
rps = requests.get(url,headers=headers)
# 得到網頁的返回值
response = rps.text
# print(text)
dom = etree.html(response)
# 這裡用xpath解析
items = dom.xpath(
'//div[@class="item"]'
)# print(items)
for item in items:
# 得到電影名字
picname = item.xpath(
'div[@class="info"]/div[@class="hd"]/a/span[@class="title"]/text()')[
0]# print(picname)
# 得到的url
imgsurl = item.xpath(
'div[@class="pic"]/a/img/@src')[
0]# print(imgsurl)
img = requests.get(imgsurl)
.content
# print(img)
# 儲存進檔案
爬取豆瓣Top250
requests庫可以自動爬取html頁面,自動網路請求提交。安裝方法 pip install requests requests庫主要有7個方法 首先開啟網頁 豆瓣top250 然後f12,得到如下圖 我們要找的內容在紅框裡面。這個頁面有25個電影,第乙個頁面 第二個頁面 我們可以觀察到 每個頁面...
爬取豆瓣top250
案例實現 需求 要爬取豆瓣top250的電影資訊資料 標題 評分 引言 詳情頁的url 10頁的資料 都要爬取 並寫入到csv檔案中 第一頁 第二頁 第三頁 第四頁 一共是250條 25頁 分析 page 1 25 總結 第乙個 str格式化的運用 解決辦法 先是找規律 進行格式化的替換 douba...
爬取豆瓣TOP250書單
小白學習爬蟲 爬取豆瓣top250的書,正好本人也喜歡看書 思路分析 這是top250第一頁的鏈結 start 25第二頁的鏈結 start 50第三頁的鏈結 將第一頁鏈結改為?start 0也是可以訪問的,每一頁數字加25,構建10頁 如下 urls start format str i for ...