大資料治理不是人人都會(二)

2021-10-22 18:41:16 字數 1249 閱讀 2916

大資料治理的英文名是big data governace,其中big data指的是我們使用了大資料和資料倉儲技術,governace則代表其中還涉及到協調多方和統籌管理的內容,因此,這必然是乙個極其複雜的問題。

2.1 組織架構複雜,需要統一的領導

如果所有資料都來自於乙個業務系統,不論這個業務系統有多複雜,都不能稱之為資料治理。因為這些資料本身就擁有統一的標準、相同的環境、相同的參考資料,我們所需要做的,無非是使用 olap 技術對資料進行異構化和分析罷了。

大資料治理的多樣性,導致大資料治理場景中,資料往往產自於多個部門,需要各個部門在協作的過程中,同時要承擔不同的責任。區域醫療場景中,涉及到的機構就包括衛健委、各級醫院、基層衛生所等等數十個。

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-7dnuyptt-1616318083571)(/users/zhendong/documents/md-pic-ref/2021-02-10 資料治理管理.jpg)]

2.2 業務複雜,需要統一的模型

資料治理的核心便是模型規範,模型定義了業務邏輯,資料內部約束,外部約束,字段型別,字段閾值等等。

模型的設計並不簡單,首先要合理,即符合行業標準、國家標準和省級標準,同時還要能適應本地特色,囊括各種各樣的場景和應用需求,並且還需要有指導意義,方便後續的擴充套件和公升級。

滿足合行業標準和國家標準是最基礎的需求,一方面是為了滿足醫療機構或區域管理機的構評級需求和上級考核任務,另一方面也是為了更高層級的資料互聯互通的需求。

本地化抽象的模型不可取。簡單對收集到的資料進行抽象和歸納,總結出一套本地化的模型,雖然簡單可用,卻不具備擴充套件性和指導性。一旦上層應用提出新的需求,需要接入新的資料,很可能會因為相容性的問題,導致模型的重構,費時費力。

大一統的模型也是不可取。妄圖在不同地域使用統一的模型,最大化提高模型的復用率,往往會帶來其他問題。一套成熟的模型雖然能夠適配90%的需求,解決擴充套件性和指導性的問題。但是,一成不變的大一統模型往往無法完全貼合本地的需求,帶來多餘無效的字段或業務邏輯。在資料收集和治理的過程中,無效的字段會產生錯誤的糾正資訊;在資料使用過程中,多餘的字段會帶來髒資料,甚至影響業務邏輯。

因此,想做好這件事,需要資料治理團隊,擁有豐富的行業經驗,成熟的資料模型,強大的調研團隊。通過對應用需求的調研、資料現狀的調研,在已有成熟的資料模型上做一部分定製化的設計,得到一套完善的資料模型。下圖為醫療領域的模型分組(模型數量200+)。

to be continued…

大資料治理不是人人都會(一)

1 真的難嗎 1.1 what is big data governace 大資料治理區別於業務系統,它本身不是應用軟體,沒有具體的場景 頁面 功能,而是對已有業務系統中資料價值的挖掘。因此,大資料治理的前提是要有資料,並且資料量多 資料種類或形式多樣化 資料內容不斷變化。而資料治理的本質,就是將原...

大資料治理不是人人都會(三)

2.3 技術複雜,需要統一的平台 技術方面,大資料的治理包括以下內容 不同大資料型別的手機和儲存 元資料的管理 隱私 資料安全 的管理 資料質量管理 業務流程整合 主資料管理和整合 資料生命週期管理。如果有統一的平台,資料的採集 清洗 儲存 傳輸和使用將會非常方便,大大提高資料治理過程的效率和效果。...

《人人都會資料分析》筆記 概率

1 取值在0 1之間。如果某個隨機事件其中乙個結果為0,表示這個結果不可能發生 如果概率等於1,則表示這個結果必定會發生 介於0到1之間的概率說明事件發生可能性的大小,數值越接近1發生的可能性越大。1 條件 結果種類是確定的 每種結果發生的概率相同。2 拋硬幣 結果 正面 反面 概率 1 2 擲骰子...