1、背景
資料清洗就是將大量資料組裝後呼叫第三方介面,根據返回結果分類儲存成功資料和錯誤資料。平均每天對接的資料總共有3w左右需要清洗,有時候重複清洗所有資料達到100w以上。
2、設計方案
2.1、版本v1.0
2.1.1、待清洗資料儲存在表cookie_clean_t(已經按照需求進行過第一步去重),欄位state標記了:未清洗,清洗中,清洗成功,清洗失敗三種狀態;
2.1.2、後台資料清洗專案(xx-cookie-clean)提供了後台分發待清洗資料的介面(設計了同步鎖),清洗機械人專案(xx-robot-clean)每次從後台介面獲取資料時分發的資料都是未清洗狀態,已分發的資料更新狀態為清洗中,另外置收清洗結果的介面將更新資料為清洗成功或清洗失敗狀態;
2.2、版本v2.0
2.2.1、待清洗資料儲存在表cookie_clean_t(已經按照需求進行過第一步去重),欄位state標記了:未清洗,清洗成功,清洗失敗三種狀態;
2.2.2、後台資料清洗專案(xx-cookie-clean)提供了後台分發待清洗資料的介面(redis加鎖),清洗機械人專案(xx-robot-clean)每次從後台介面獲取資料時分發的資料都是未分發並且沒有清洗狀態的,已分發的資料儲存到表cookie_short_run_t,另外置收清洗結果的介面清洗成功的資料儲存到臨時表cookie_short_succ_t,將清洗失敗的資料儲存到臨時表cookie_short_error_t;
2.2.3、臨時表定時維護資料清洗狀態;
3、結論
加鎖和分臨時表的機制降低了介面分發資料查詢資料庫的頻率,極大緩解資料庫壓力
資料清洗之資料清洗概述
從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...
資料清洗之微博時間清洗
資料清洗之微博時間清洗 爬取微博的時候時間格式比較亂,存到資料庫要統一成datatime型別,所以需要用到對時間的轉換 這裡是對time模組和datetime的模組的使用。對於當天的有三種 40秒前 50分鐘前 今天 08 12 針對這三種,第一步要做的是獲取當前的年月日 import dateti...
資料清洗之資料轉換
1.日期格式資料處理 import numpy as np import pandas as pd import os os.chdir r f csdn 課程內容 和資料 df pd.read csv baby trade history.csv encoding utf 8 dtype df.h...