問財網每乙個的爬蟲的數目不一樣,頁數不一樣,難度比較大
from selenium import webdriver
from selenium.webdriver.common.by import by
from selenium.webdriver.common.keys import keys
from pandas import dataframe
import pandas as pd
import numpy as np
import re
import time
browse=webdriver.chrome() #開啟chrome
a='漲停&queryarea='
browse.get(a) #開啟問財網
def page(n):
page_n=dataframe()
name=
for i in range(n):
try:
mm=''.format(i+1)
browse.get(mm)
#print(aaaa)
#df_page=wed(mm)
whe=browse.find_element_by_xpath('//*[@id="qinfo"]/div[1]/div/div[1]/div').text #獲取日期和每天有多少條資料,資料為"2023年9月30日的漲停 (21 個)"
except:
pass
return dataframe ,name
b1=page(30)
b2=np.array(b1) #改變資料格式
b3=pd.series(b2)
b4=b3[1]
b5=for i in range(30):
b6=for i in range(30):
b7=for i in range(30):
b8=for i in range(30):
b9=for i in range(30):
b10=
for i in range(30):
b11=pd.series(b10)
b11# b11[27]=69 #將 14、28天設為69、也就是一頁
知網專利爬蟲
最近需要爬取知網專利的資料,時間限定為2014年。一番折騰以後,發現知網反爬蟲非常嚴重。幾經研究,最後還是鼓搗了出來。專案github位址 知網專利檢索結果列表頁反爬蟲非常嚴格,仔細抓包分析以後,發現每次請求必須攜帶 嚴格的headers cookies 變化的 而且列表table是js載入出來的,...
爬蟲 拉勾網 selenium
使用selenium進行翻頁獲取職位鏈結,再對鏈結進行解析 會爬取到部分空列表,感覺是網速太慢了,加了time.sleep 還是會有空列表 1 from selenium import webdriver 2import requests 3importre4 from lxml import et...
python爬蟲之安裝PySpider問題
今天安裝pyspider時安裝不了,倒騰了一晚上終於解決了,學習效率有待改進。記錄如下。windows下pyspider安裝需提前安裝兩個檔案 lxml 和 wheel 安裝方法 cmd 命令列下 pip install lxml pip install wheel 但安裝lxml時一直報錯,命令列...