資料平台建設

2021-10-11 18:41:03 字數 2738 閱讀 8662

很多時候資料處理都是在乙個無模式或者非結構化或者半結構化的資料集上進行處理

批量採集和實時採集

可以說,幾乎每家稍微有點規模的資料平台團隊,都會有自己的排程系統實現方案,要不然自研,要不然在開源的基礎上進行一些封裝和改造(比如很多公司採取了封裝oozie的方式)。

資源排程系統,它的工作重點是底層物理資源的分配管理,目標是最大化的利用集群機器的cpu/磁碟/網路等硬體資源,所調配和處理的往往是與業務邏輯沒有直接關聯的通用的程式程序這樣的物件。

作業排程系統有時也會考慮負載均衡問題,但保證負載均衡更多的是為了系統自身的健壯性,而資源的合理利用,作為乙個可以優化的點,往往依託底層的資源排程系統來實現。

乙個成熟易用,便於管理和維護的作業排程系統,需要和大量的周邊元件對接,不僅包括各種儲存計算框架,還可要處理或使用到包括:血緣管理,許可權控制,負載流控,監控報警,質量分析等各種服務或事務。這些事務環節,在每家公司往往都有自己的解決方案,所以作業排程系統所處的整體外部環境,千差萬別,再加上各公司各種業務流程的定製化需求進一步加大了環境的差異性,所以,排程系統很難做到既能靈活通用的適配廣大使用者的各種需求,又不落到太過晦澀難用的地步。

排程型別

依賴排程

時間排程

依賴推薦

基線控制

大資料離線計算通常作業執行時間比較長,如果不能及時發現問題,重跑需要幾個小時,顯然來不及

統一管理

演算法**和調控

**校驗

環境隔離

多引擎支援

功能

支援灰度功能,允許按特定條件篩選作業按照特定的策略灰度執;根據血緣資訊,自動建立作業依賴關係;任務日誌分析,自動識別錯誤原因和型別

資料安全

資料安全——許可權

資料安全——脫敏

血緣關係

資料生命週期管理

數倉的治理規範的落地

隨著大資料時代的帶來,資料的應用也日趨繁茂,越來越多的應用和服務都基於資料而建立,資料的重要性不言而喻。而且,資料質量是資料分析和資料探勘結論有效性和準確性的基礎,也是這一切的資料驅動決策的前提!如何保障資料質量,確保資料可用性是每一位資料人都不可忽略的重要環節。

完整性

資料同步工具故障

資料被歸檔

準確性

一致性

及時性

其實主要是資料來源的監控、資料指標的監控、資料表的監控、高階一點的會涉及到全鏈路的監控

監控平台設計思路
資料:主要是需要被資料質量監控到的資料,資料可能存放在不同的儲存引擎中,比如hive、pg、es等。

規則:是指如何設計發現異常的規則,一般而言主要是數值的異常和環比等異常監控方式。也會有一些通過演算法來發掘異常資料的方法。

反饋:這裡需要特別注意,反饋是指對告警內容的反饋,比如說收到的告警的內容,那麼負責人要來回應這個告警訊息是否是真的異常,是否需要忽略該異常,是否已經處理了該異常。有了反饋的機制,整個資料質量監控才容易形成閉環。更能體現業務價值。

多使用機器學習演算法的方式來發現異常點,比如:異常森林。

加入反饋機制,如果業務負責人認為該告警是正常的,就打上正常的tag,後續告警規則根據反饋進行優化。

加入遮蔽功能,遮蔽不感興趣的告警。

資料同步方式(工具)

資料庫直連同步

-sqoop

資料庫檔案同步

會遇到兩個問題,乙個是網路波動可能會丟包,另乙個是原始檔比較大需要進行壓縮傳輸。因而通常在傳輸資料檔案的同時,會上傳乙個校驗檔案,檢測資料量、檔案大小等資訊,以保證資料同步的準確性

資料庫日誌解析同步
大多數主流資料庫都可以通過日誌檔案的方式進行系統的恢復,並且由於日誌檔案的資訊記錄非常完整,格式解析也很穩定,因而完全可以通過解析資料庫日誌檔案來獲得發生變更的資料,再更新離線系統以最大提公升效率

資料更新
資料延遲、處理資料量較大及資料漂移,因而中間系統的建設也需要進行一定的編碼開發,以消除資料不一致的情況

資料分析平台(adhoc)

介面服務(資料資產服務平台)

報表服務(資料資產服務平台)

實時數倉即脫機數倉的時效性改進方案,從原本的小時/天級別做到秒/分鐘級別。

底層設計變動的同時,需要盡力保證平滑遷移,不影響使用者(分析人員)之前的使用習慣

計算引擎

底層(事實資料)儲存引擎

可靠儲存——有一定持久化能力,高可用,支援資料重放。

實時平

大資料平台 整體建設思想

建設指導方針 建設思路 缺點 通用元件建設,組合支援業務的方式 缺點 打通上下游系統和業務流程的能力 服務口碑取決於服務最差的環節 服務越多支援的代價越高1.乙個系統服務難免會有 bug,也總會有不夠靈活的地方 提供的服務越多 越全面,日常維護的代價就越高 需求響應要疾如閃電,功能服務要天長地久1....

重慶電力啟動「大資料」平台建設

4月20日,從國網重慶信通公司傳來訊息,重慶電力 大資料 平台於近日正式啟動建設。按照國家電網2016年工作要求,推動電網 十三五 資訊化規劃發展,該公司建設 大資料中心 提公升電網資訊化應用水平。大資料 平台是電網sg erp3.0的核心支撐基礎平台。該平台利用大資料的分布式儲存技術,整合優化重構...

餓了麼大資料平台建設

隨著接入的需求方越來越多樣化,對大資料的資料使用 資料儲存與計算的需求也越來越多樣化,同時業務飛速發展,集群的規模也急速擴大。如何在這樣的場景下通過大資料平台,穩定支撐住業務的發展是乙個不小的挑戰。本文分享主要平台工具鏈,技術 選型及架構設計上的一點經驗。餓了麼的大資料平台團隊成立於2015年5月份...