說明:1.flume採用的三個client實時監控三個伺服器的磁碟路徑,七個server提高負載均衡和拉取資料的能力,採用load_balance機制將資料sink到kafka,其中source zip方式flume官方不支援,需要開發自定義source
2.對於歷史資料的備份從源頭開始備份,當flume解析完乙個zip的資料寫入到kafka後,該zip檔案會更名為.zip.complete檔案,預設儲存三天,過期自動刪除,減少磁碟空間占用
3.質量分析kafka和資料分發kafka將分割槽設定最大,同時對於每個topic的資料量和下游的消費能力評估,設定動態的合適的資料存放時間,提高效率,避免資料積壓。
4.質量分析庫之所以採用druid,是因為druid在時序彙總關聯查詢具有有事,效能較快。
資料治理架構探索(二)
到後期每天同步資料有15g左右,由於生產的機子效能差,導致同步巨慢,影響了平台日常使用,因此做了優化。ps 公司初期業務為主,資料量也較少,因此機器投入相對少,沒有備用機器同時運作,oracle效能擴充套件又有難度,一直定時刪資料才確保機器夠空間儲存,更不要說日常大量的io請求。說明 在實際工作情況...
資料治理 VS 公司治理 IT治理 數倉治理
如題,今天要聊得這個話題,包含了四個 治理 看完這張圖你有什麼想法,這張圖說明了什麼?它是在描述公司治理 it治理 數倉治理和資料治理的關係嗎?如果這張圖是在描述四個 治理 之間的層次結構,那你認為哪乙個結構是正確的呢?如果您是企業的高管,您會選擇哪個結構,來實施 治理 呢?01 資料治理 vs 公...
讀書筆記 IT治理架構
it治理是公司治理的一部分。美國it治理協會給it治理的定義是 it治理是一種引導和控制企業各種關係和流程的結構,這種結構安排,旨在通過平衡資訊科技及其流程中的風險和收益,增加價值,以實現企業目標 可以看出,it治理在遵循資訊化戰略的基礎上,內容本質是一種結構安排,目的是平衡資訊化過程中風險和收益,...