資料湖平台簡介
資料湖平台是一套混合架構,以傳統oracle與華為fusioninsight hd&libra為主,依託統一融合的資料平台,全流程拉通公司產品的研發製造、**儲存、安裝交付多環節資料,增強資料互動,使能數字孿生,自動化、智慧型化提公升公司運作效率。
該平台圍繞資料分如下三大邏輯模組:
系統架構如下:
資料建設準則
資料接入原則
以應用驅動為主,優先建設**值數字孿生專案;
入湖資料必須有資料管理部認證,發布對應資料資產標準,匹配對應資料責任人;
資料建模原則以原始資料、清洗整合資料、三正規化結構、服務化寬表逐級向上規範;
整體平台需符合高可用、平行擴容原則,符合業務3-5年的資料規劃。
資料湖指導思想
大資料只有開放生態才可能最大化發揮價值,訂單不拉通生產製造、交付驗收,就難以預估產能週期、使用者期望等,我們必須資料開放,才能提供更優質的資料服務。
大資料膨脹迅猛特別是iot應用的普及,提公升資料精度才能發現更多生產問題,ai演算法也需要大資料訓練模型,我們需要擁抱開源,持續引入工業界優秀平台提公升自己。
典型資料應用場景
下圖按應用場景,對資料流程、處理平台進行的標註:
(綠色)結構化資料通過批處理、虛擬映象到hive資料,再通過kylin預處理將資料儲存在cube中,封裝成restapi服務,提供高併發亞秒級查詢服務,監測物料質量情況;
(紅色)iot資料,通過sensor採集上報到mqs,走storm實時分揀到hbase,通過演算法模型加工後進行ict物料預警監測;
(黃色)條碼資料通過etlloader到iq列式資料湖,經過清洗加工後,提供千億規模條碼掃瞄操作。
iot資料應用 (資料場景:sensor資料)
mqs(ump):負責快取訊息資料,訊息佇列服務(message queue service,簡稱mqs)是針對華為it場景打造的專業訊息中介軟體,是企業級網際網路架構的核心產品,基於高可用分布式集群技術,搭建了包括發布訂閱、訊息軌跡、資源統計、監控報警等一套完整的訊息雲服務。支援全球路由、隔離網路、雲間整合三大業務場景。
storm:hadoop體系流處理平台,負責將mqs資料進行處理分發到hive、hbase、oracle等資料平台儲存。
it日誌資料
通過web前台、資料api服務,進行資料的上傳及查詢,需要有唯一id作為標示,確保可檢索。海量資料以id為rowkey,儲存於hbase平台,提供快速儲存及查詢能力。資料資產上有以下方面的構建:
統一索引描述非結構資料,方便資料檢索分析。
增加維護及更新時間作為物件描述字段(型別、畫素大小、尺寸規格)。非物件方式及數位化屬性編目(全文文字、影象、聲音、影視、超**等資訊),自定義元資料。
不同型別的資料可以形成了關聯並處理非結構化資料。
資料儲存方案
目前資料湖儲存介質以fusioninsight hd&libra和oracle兩套平台為主,總體接入原則:
**值及高熱度資料,以fusioninsight hd&libra或oracle為主,如fin資料;
貼源建設,如源系統為關係型資料庫接入oracle,源系統為hadoop則對接fusioninsight hd;
領域級優先建設原則,如it、製造、研發**;
我們按照資料型別、資料規範、適用場景建議如下:
資料設計規範
入湖資料,原則上作為生產環境的全量映象方式儲存,部分資料甚至以資料湖作為第一可信源發布,出於以下考慮:
資料湖體量大,能冷熱備生產資料,可將保持較長時間生產環境資料;
olap掃瞄資料量大,多數場景會全量掃瞄資料,這對oltp為主的作業系統是不合適,所以我們需要集中在資料湖中進行資料分析工作,和原系統解耦。
資料入湖流程
計算機資訊化系統中的資料分為結構化資料和非結構化資料。非結構化資料其格式非常多樣,標準也是多樣性的,而且在技術上非結構化資訊比結構化資訊更難標準化和理解。所以儲存、檢索、發布以及利用需要更加智慧型化的it技術,比如海量儲存、智慧型檢索、知識挖掘、內容保護、資訊的增值開發利用等,所以我們按資料型別分為如下兩大流程:
結構化資料
結構化資料也稱作行資料,是由二維表結構來邏輯表達和實現的資料,嚴格地遵循資料格式與長度規範,主要通過關係型資料庫進儲存和管理。
非結構化資料
建模必要要求:
統一索引描述非結構資料,方便資料檢索分析,可增加維護人員及更新時間作為物件描述字段。
非結構化儲存,是對物件方式及數位化屬性編目,自定義元資料,關聯大量非結構化異構資料採用統一的檔案元資料對資料進行建模,每乙個元資料可以作為該資料的乙個維度,索引引擎會對資料的每個元資料屬性進行多維索引,這樣不同型別的資料就可以形成了關聯並處理非結構化資料(全文文字、圖象、聲音、影視、超**等資訊)。
儲存平台:
hbase、mongodb、hdfs。
增量方式:
支援push、pull兩種策略,如選擇hbase儲存需考慮儲存的版本個數方便業務檢視歷史版本。
如push方式,需業務先將資料以訊息方式推送mqs(訊息中介軟體),資料湖負責分揀入湖;
如pull方式,由資料湖主動部署agent上報、或者jdbc等方式去get業務資料,實現組鍵以flume、爬蟲或者資料庫驅動為主。
資料平台建設
很多時候資料處理都是在乙個無模式或者非結構化或者半結構化的資料集上進行處理 批量採集和實時採集 可以說,幾乎每家稍微有點規模的資料平台團隊,都會有自己的排程系統實現方案,要不然自研,要不然在開源的基礎上進行一些封裝和改造 比如很多公司採取了封裝oozie的方式 資源排程系統,它的工作重點是底層物理資...
有讚大資料平台安全建設實踐
在大資料平台建設初期,安全也許並不是被重點關注的一環。大資料平台的定位主要是服務資料開發人員,提高資料開發效率,提供便捷的開發流程,有效支援數倉建設。大資料平台的使用者都是公司內部人員。資料本身的安全性已經由公司層面的網路及物理機房的隔離來得到保證。那麼資料平台建設過程中,需要考慮哪些安全性方面的問...
有讚大資料平台安全建設實踐
在大資料平台建設初期,安全也許並不是被重點關注的一環。大資料平台的定位主要是服務資料開發人員,提高資料開發效率,提供便捷的開發流程,有效支援數倉建設。大資料平台的使用者都是公司內部人員。資料本身的安全性已經由公司層面的網路及物理機房的隔離來得到保證。那麼資料平台建設過程中,需要考慮哪些安全性方面的問...