其實,這部分主要是實現定時抓取資料的程式,資料的抓取以及儲存程式已寫(從tushare獲取歷史**資料)
抓取交易日(周一到周五)資料,定時為每天的15:30抓取,其中主要使用到了schedule模組用於定時執行任務
**如下:
import schedule
import time
from datetime import datetime
from daily_crawler import dailycrawler
def crawl_daily():
"""每日定時抓取
"""#初始化抓取日線資料類
dc = dailycrawler()
#獲取當前時間
now_date = datetime.now()
#獲取今天星期幾,週日-週六 0-6
weekday = int(now_date.strftime("%w"))
#只有周一到周五執行
if 0 < weekday<6:
#當前日期
now = now_date.strftime('%y-%m-%d')
#抓取當日指數
dc.crawl_index(begin_date=now,end_date=now)
#抓取當日**資料
dc.crawl(begin_date=now,end_date=now)
#定時任務的啟動入口
if __name__ == "__main__":
#設定每天15:30執行任務
schedule.every().day.at("15:30").do(crawl_daily)
#通過無線迴圈,執行任務檢查
while true:
#每10s檢測一次
schedule.run_pending()
time.sleep(10)
雪球網爬取資料並存入資料庫
from urllib import request import json import pymysql class mysql connect object 初始化的建構函式 def init self self.db pymysql.connect host 127.0.0.1 user ro...
爬取拉勾網資料,並存入Mongodb資料庫
import time import pymongo import requests from bs4 import beautifulsoup 簡歷資料庫連線 client pymongo.mongoclient localhost 27017 mydb client mydb lagou myd...
Scrapy遞迴抓取資料存入資料庫(示例二)
參考 scrapy爬取了鏈結之後,如何繼續進一步爬取該鏈結對應的內容?parse可以返回request列表,或者items列表,如果返回的是request,則這個request會放到下一次需要抓取的佇列,如果返回items,則對應的items才能傳到pipelines處理 或者直接儲存,如果使用預設...