因為使用了華為的一套資料加工平台,需要將本地mysql資料庫的資料同步到華為dayu平台做資料加工,首先將本地mysql的表資料通過roma平台同步到dws資料倉儲。
有幾個注意點:
1.第一次執行會將資料來源表中create_time欄位大於「時間戳初始值」的資料都同步過來,但是官方文件寫的剛好和我實際執行的判斷機制相反。
2.然後定時任務第二次執行就只會同步增量資料了,判斷增量的資料規則是create_time大於上次定時任務執行的時間,官方文件定義的增量資料時間區間是如下圖標註,與我實際執行的相反。
官方文件對於時間戳初始值的說明:
3.【重置遷移時間初始值】首次執行定時任務,打不開啟無所謂,但是後面修改、終止定時任務後再執行時一定要開啟,不開啟的話就容易出現同步的資料為0條,具體機制不祥。我的理解是:首次執行定時任務時會預設按上面的「時間戳初始值」來判斷需要同步的資料(create_time > 時間戳初始值),但是再次執行時,如果不開啟這個按鈕的話,就會讀取上次定時任務的執行時間,以這個時間作為開始時間來判斷需要同步的資料(create_time > 上次定時任務執行的時間),所以會出現同步成功的資料為0條的情況。文件也未對此屬性加以說明,我總結的是這個規律。
華為文件:
或者直接在華為雲服務**搜尋「從mysql獲取資料並儲存到obs」關鍵字
以上是我多次實際測試的結果,為啥與華為文件有出入,暫時還不得知,華為文件也不夠詳細。
大資料平台資料倉儲分層
1 緩衝資料層bdm 源業務系統資料的快照,儲存細節資料,按天儲存。2 基礎資料層fdm 按業務概念組織細節資料。3 通用資料層gdm 根據京東核心業務價值鏈按照星型模型或雪花模型設計方式建設的最細業務粒度彙總層。在本層需要進行指標與維度的標準化,保證指標資料的唯一性。4 資料層adm 根據不同的業...
大資料平台資料許可權管理設計
當前大資料團隊沒有乙個統一的操作許可權控制和管理平台,對於分析師在伺服器上的許可權,目前都是給予對應分析節點的ec2機器賬號,且為了方便操作和管理都是給予的管理員許可權,因此安全性風險較大 對於資料開發者,主要通過分配iam控制aws的操作許可權 對於team的所有人都是通過分配aws的ak,sk在...
Android平台資料抓取方案分享
文章首發於huruwo的部落格小站,本平台做同步備份發布。最近在分析某款軟體的資料時,發現無法通過抓包工具抓取。而且只要連上 就算安裝上了證書也無法正確的獲取導資料。我以為時flidder的問題,後來嘗試了多種抓包工具,都無法正確的獲取到資料。偶然測試了電腦上的模擬器,居然可以正確拿到資料。猜想和a...