初學者學習爬蟲爬取當當網會比較容易,因為噹噹沒有反爬蟲import requestsfrom lxml import html
name = input('請輸入要搜尋書籍的資訊:')
# 1.準備url
url = "".format(name)
start = 1
while true:
print(start)
start += 1
# 2.傳送請求
response = requests.get(url)
# 3.獲取相應資料
str = response.text
# 4.將字串轉換為element物件
element = html.fromstring(str)
# 5.提取資料
# 5.1先分類
li_list = element.xpath('//div[@id="search_nature_rg"]/ul/li')
# 5.2再獲取資料
for li in li_list:
book_name = li.xpath('./a/@title')
book_link = li.xpath('./a/@href')
book_price = li.xpath('./p[@class="price"]/span[@class="search_now_price"]/text()')
if not book_price:
book_price = li.xpath('./div[@class="ebook_buy"]/p[@class="price e_price"]/span[@class="search_now_price"]/text()')
if not book_price:
book_price = ['無**']
# 6.儲存資料
with open('book.txt', 'a', encoding='utf8') as f:
f.write(book_name[0].strip() + "\n" + book_link[0] + "\n" + book_price[0] + "\n\n")
# 7.獲取新的url
try:
url = "" + element.xpath('//li[@class="next"]/a/@href')[0]
except:
break
爬蟲實戰 爬取當當網top500書籍
1.這個好像是爬蟲入門必備專案,練練手 練習 2.requests bs4模式,因為這個 比較簡單,不多說廢話了。usr bin env python coding utf 8 爬取當當網top500書籍 import requests from bs4 import beautifulsoup f...
scrapy爬當當網書籍資訊
本次只爬取搜尋的python相關的所有書籍 scrapy start project ddbook cd ddbook ddbook scrapy genspider t basic book dangdang.com 然後開啟 book.py 一共100頁 for i in range 1,101...
scrapy基礎 當當網爬取
xpath與正則簡單對比 1.xpath表示式效率更高 2.正規表示式功能更強大 3.一般優先選擇xpath,解決不了再用正則 xpath提取規則 逐層提取 text 提取標籤下的文字 html head title text 3.標籤名 提取所有名為的標籤 4.標籤名 屬性 屬性值 提取屬性為 的...