在前面六篇系列的文章中,我們已經初步搭建了乙個企業基本資訊採集框架,但是從可配置性以及視覺化方面還有很多地方需要去完善。這篇文章我們對schedule.py這個檔案做一些整體的修改,使其看上去更加符合我們的平常需求。
我在原有的框架上面,又建立了乙個start_crawl.py這個檔案來啟動全域性,主要是想在啟動之前做乙個更加合理劃的配置和判斷,下面是具體的實現部分
# -*- coding: utf-8 -*-
from schedule import scheduler
from db_connect import redisdbconn,dbcollect
import sys
import io
from loguru import logger
from config import
*buffer
,encoding=
"utf-8"
)def
main
(keywords_list)
:"""
開始執行整個工商採集
:return:
"""count = redisdbconn(
).get_count(init_status)
if count ==0:
if delete_redis_keywords and delete_redis_params:
redisdbconn(
).del_db(keywords_redis_db)
redisdbconn(
).del_db(params_redis_db)
if sql_input:
).entry_data(
)else:)
.add_keywords(keywords_list)
else
: logger.info(
"源redis庫內已經有未採集的keywords....."
)try
: s = scheduler(
) s.run(
)except exception as e:
logger.debug(
"開始採集出現問題--"
+str
(e.args)
)# main(keywords_list)
if __name__ ==
'__main__'
: keywords_list =
["天堂"
,"建材"
] main(keywords_list)
打造乙個輕量級企業基本資訊採集框架(三)
在上文中我們主要定義了兩個資料庫,乙個是儲存表mysql的儲存設定,還有乙個就是redis初始化設定,包括取資料,計數等功能函式的設定。沒有看過的小夥伴請移步打造乙個輕量級企業基本資訊採集框架 二 本文主要對如何實現排程器,對url進行排程以及設定。coding utf 8 from config ...
打造乙個輕量級企業基本資訊採集框架(四)
我們話不多說,show your code!def req data url,data,page,keyword,timeout 10,proxies none 用來請求採集 param data 請求引數 param url url param page 頁數 return html count ...
peewee 乙個輕量級的ORM 四
class database last insert id cursor,model parameters return type 最後乙個插入的記錄的那行的主鍵,不一定非得叫 id rows affected cursor return type 受影響的行數 create table model...