使用selenium實現乙個簡單的爬蟲

使用selenium爬蟲**前2頁商品指定內容。

主要思想：

請求url，從原始碼中獲取指定selector，進行爬取。

import time
from selenium import webdriver
browser = webdriver.chrome()
browser.set_page_load_timeout(30)
# get 方法  開啟指定**
browser.get('')
# 選擇網頁元素
page_info = browser.find_element_by_css_selector('body > div.wrap > div.pagem.product_list_pager > div')
# print(page_info.text)   #共 80 頁，每頁 24 條
# 獲取頁碼（80）
pages = page_info.text.split(' ')[1]    # pages=80
# 例：range(3)=[0,1,2]
for page in range(int(pages)):
print(page)
if page > 2:
break
# 拼接獲取每一頁的位址
url = '' + str(page + 1)
browser.get(url)
# 滾動到底部(因是滾動後才會載入)
browser.execute_script("window.scrollto(0, document.body.scrollheight);")
time.sleep(3)   # 不然會load不完整
goods = browser.find_element_by_css_selector('body > div.wrap > div:nth-child(2) > div.p_main > ul').find_elements_by_tag_name('li')
# print('d%頁有%d個商品' % ((page + 1), len(goods)))
for good in goods:
try:
title = good.find_element_by_css_selector('a:nth-child(1) > p:nth-child(2)')
price = good.find_element_by_css_selector('div > a > span')
print(title, price)
except:
print(good.text)

使用selenium寫乙個簡單的爬蟲登入郵箱

selenium使用過程比較簡單，完整在最後參考參考 from selenium import webdriver import path import time 因為我的電腦不能設定環境變數，所以配置臨時環境變數，你已配置好，請忽略下面兩行 path str path.addpath d s...

使用Python的turtle庫畫乙個簡單的五角星

turtle庫是python的內建圖形化模板可參考筆記或其他的資料功能五角星的繪製 import turtle defmain 主函式 count 1 while count 5 turtle.forward 100 向前走50 turtle.right 144 向右轉144度 count c...

使用兩個佇列實現乙個棧，使用兩個棧實現乙個佇列

一棧與佇列的特點一棧棧一種特殊的線性表，其只允許在固定的一端進行插入和刪除元素操作。進行資料插入和刪除操作的一端稱為棧頂，另一端稱為棧底。不含任何元素的棧稱為空棧，棧又稱為後進先出的線性表。棧的特點後進先出 lifo 二佇列佇列只允許在一端進行插入資料操作，在另一端進行刪除資料操...

使用selenium實現乙個簡單的爬蟲

使用selenium寫乙個簡單的爬蟲登入郵箱

使用Python的turtle庫畫乙個簡單的五角星

使用兩個佇列實現乙個棧，使用兩個棧實現乙個佇列

相關推薦