# -*-coding:utf8-*-importrequests
importre
importmath
j = 1
#檢視每一頁都多少個
,用於決定我們要翻多少頁
)#獲取網頁的源**
, html.text, re.s)#
開啟網頁原始碼發現每個
名稱前面有,#
所有統計這個標示的個數就可以知道每一頁有多少個
啦的長度就代表了每一頁
的個數print(u'請輸入的數目:')
#根據要爬取的
個數決定要翻多少頁
foriinrange(1, int(pagenum + 1)):
括號內是每一頁的連線位址
+ str(i))
print(i)
# print html.text
title = re.findall('
(.*?)
, html.text, re.s)#
找對應的
的名稱在網頁中的位置,並用正規表示式來獲取,如果看不懂,那你該好好去看看正規表示式了
lab = re.findall('
', html.text, re.s)
#將每一頁的
按先後順序輸出,知道第
100個
list_title =
fortitleintitle:
ifj = j + 1
list_lab =
fortitleintitle:
ifj = j + 1
##########################
print(list_title)
商城商品爬取
from selenium import webdriver import time import csv 接受使用者輸入 訪問京東 pro input 請輸入要爬取的商品 driver webdriver chrome driver get i 1 傳送文字到搜尋框 text driver fin...
多執行緒爬取小公尺應用商店
目標 2 目標 所有應用分類 應用名稱 應用鏈結 實現步驟 1 頁面區域性重新整理 2 右鍵檢視網頁源 搜尋關鍵字未搜到 此 為動態載入 需要抓取網路資料報分析1 抓取返回json資料的url位址 headers中的request url 302 檢視並分析查詢引數 headers中的query s...
爬取京東商城商品資訊
from selenium import webdriver from selenium.webdriver import actionchains 獲取屬性 from selenium.webdriver.common.keys import keys from selenium.webdrive...