爬蟲爬取當當網書籍

2021-09-27 06:24:43 字數 1237 閱讀 3696

初學者學習爬蟲爬取當當網會比較容易,因為噹噹沒有反爬蟲import requests

from lxml import html

name = input('請輸入要搜尋書籍的資訊:')

# 1.準備url

url = "".format(name)

start = 1

while true:

print(start)

start += 1

# 2.傳送請求

response = requests.get(url)

# 3.獲取相應資料

str = response.text

# 4.將字串轉換為element物件

element = html.fromstring(str)

# 5.提取資料

# 5.1先分類

li_list = element.xpath('//div[@id="search_nature_rg"]/ul/li')

# 5.2再獲取資料

for li in li_list:

book_name = li.xpath('./a/@title')

book_link = li.xpath('./a/@href')

book_price = li.xpath('./p[@class="price"]/span[@class="search_now_price"]/text()')

if not book_price:

book_price = li.xpath('./div[@class="ebook_buy"]/p[@class="price e_price"]/span[@class="search_now_price"]/text()')

if not book_price:

book_price = ['無**']

# 6.儲存資料

with open('book.txt', 'a', encoding='utf8') as f:

f.write(book_name[0].strip() + "\n" + book_link[0] + "\n" + book_price[0] + "\n\n")

# 7.獲取新的url

try:

url = "" + element.xpath('//li[@class="next"]/a/@href')[0]

except:

break

爬蟲實戰 爬取當當網top500書籍

1.這個好像是爬蟲入門必備專案,練練手 練習 2.requests bs4模式,因為這個 比較簡單,不多說廢話了。usr bin env python coding utf 8 爬取當當網top500書籍 import requests from bs4 import beautifulsoup f...

scrapy爬當當網書籍資訊

本次只爬取搜尋的python相關的所有書籍 scrapy start project ddbook cd ddbook ddbook scrapy genspider t basic book dangdang.com 然後開啟 book.py 一共100頁 for i in range 1,101...

scrapy基礎 當當網爬取

xpath與正則簡單對比 1.xpath表示式效率更高 2.正規表示式功能更強大 3.一般優先選擇xpath,解決不了再用正則 xpath提取規則 逐層提取 text 提取標籤下的文字 html head title text 3.標籤名 提取所有名為的標籤 4.標籤名 屬性 屬性值 提取屬性為 的...