1 真的難嗎
1.1 what is big data governace
大資料治理區別於業務系統,它本身不是應用軟體,沒有具體的場景、頁面、功能,而是對已有業務系統中資料價值的挖掘。因此,大資料治理的前提是要有資料,並且資料量多、資料種類或形式多樣化、資料內容不斷變化。而資料治理的本質,就是將原本存在於各個業務系統中雜亂資料變現的過程。
1.2 big data vs. data warehouse
雖然,資料倉儲的概念早於大資料,並且,挖掘資料的價值不一定非要使用資料倉儲。但是,在雲平台興起的當下,基於雲計算,利用資料倉儲的思想和技術來解決大資料治理問題,是大勢所趨。下面,我舉個例子。
區域醫療資料治理的場景中,資料的**有:市級醫院業務資料、基層醫療公共衛生資料、母子健康系統、人口死亡系統、智慧型生命通道系統、執行監管系統等等。資料量非常大、資料**和種類樣數極多、並且時刻都在變化。
這些資料治理好之後,需要支撐的應用系統有:患者主索引、健康檔案、處方點評、drg、病歷質檢等。會產生巨大的價值。
模擬於礦變鐵的過程,同乙個人的檢查資料(例如測血壓),可能存在於各個醫院的不同廠商的資訊化系統中,面臨表結構不同、資料單位不同、碼表不同的各種問題,需要進行統一的標準化;
模擬於把鋼鐵軋成不同型號鋼胚的過程,雖然資料經過了標準化,但相同含義的資料還存在於不同的表中,資料仍是雜亂無章的。為了方便資料的取用,根據業務特點設計涵蓋所有資料的模型,把標準化後的資料注入模型,形成資料明細層。至此,雜亂無章的資料變成了統一的、完整的、規範的,可以方便取用的模型化資料。
模擬於把鋼胚鍛造為不同行業需要的標準零件,如果業務場景非常複雜,需要把模型化的資料按不同應用場景主題化。資料主題化的過程中,雖然會產生冗餘,但由於是針對具體應用場景開發,資料會像標準零件一樣,可以直接使用。
模擬於乙個鋼鐵作品的最終產生,使用模型化或主題化資料,開發資料應用,最終產生資料集市,形成價值。利用數倉技術進行資料治理的過程,可以模擬於鋼鐵產品的製造工藝,通過標準的工藝,方便資料的取用,不僅能夠提高開發效率,還可以減少重複計算,節省計算成本。
看到這裡,大資料治理的邏輯清晰,技術成熟,好像也沒什麼太深奧的。但真的只是這樣嗎?
to be continued…
大資料治理不是人人都會(二)
大資料治理的英文名是big data governace,其中big data指的是我們使用了大資料和資料倉儲技術,governace則代表其中還涉及到協調多方和統籌管理的內容,因此,這必然是乙個極其複雜的問題。2.1 組織架構複雜,需要統一的領導 如果所有資料都來自於乙個業務系統,不論這個業務系統...
大資料治理不是人人都會(三)
2.3 技術複雜,需要統一的平台 技術方面,大資料的治理包括以下內容 不同大資料型別的手機和儲存 元資料的管理 隱私 資料安全 的管理 資料質量管理 業務流程整合 主資料管理和整合 資料生命週期管理。如果有統一的平台,資料的採集 清洗 儲存 傳輸和使用將會非常方便,大大提高資料治理過程的效率和效果。...
《人人都會資料分析》筆記 概率
1 取值在0 1之間。如果某個隨機事件其中乙個結果為0,表示這個結果不可能發生 如果概率等於1,則表示這個結果必定會發生 介於0到1之間的概率說明事件發生可能性的大小,數值越接近1發生的可能性越大。1 條件 結果種類是確定的 每種結果發生的概率相同。2 拋硬幣 結果 正面 反面 概率 1 2 擲骰子...