智慧型資料湖管理的九大要點

2021-09-01 06:28:08 字數 2439 閱讀 8137

掌握資料管理原則,是在合適的時間為合適的人提供可信賴資料的基礎。資料湖讓您可以從多種資料**中儲存和處理所有資料(包括大資料),而無需對其預先搭建結構。您可以在資料湖中填入所有型別的資料,包括結構化、非結構化,或者多結構化資料,由此您的業務領導和分析人員可以從更多資料中得出更具創新的分析成果。

當企業在規劃資料湖時,為了最大程度地利用資料湖環境的價值,應遵守九大設計原則。

1. 利用小規模、敏捷的跨職能bizdevops核心團隊來執行專案

大家都在談論敏捷開發,其中最大的缺陷,就是沒有認識到跨職能團隊的重要性。在資料湖專案過程中使用跨職能團隊有諸多好處。資料湖專案需要資料工程實施方面的知識,資料管理員的業務環境分析能力,以及資料科學家和分析人員的專業分析技能。擁有多個視角有利於企業及時獲得準確且一致的業務洞察力,從而有效地滿足業務需求。

2. 讓資料科學家更快地獲取完成資料準備所需的資料

近年來,自助服務資料變得日益重要。自助服務資料準備讓學識淵博的業務分析人員能夠在分析之前合併、轉換和清洗相關資料,將這些資料變得更可信和可靠。先進的工具讓使用者能夠將其準備好的資料集發布到協作區域,這樣多個業務利益相關者便可一起訪問和準備資料。此外,當業務分析人員在資料湖中探索和查詢資料時,工具中的機器學習技術可以為他們提供導向經驗。

3. 利用群體的智慧型,以眾包和標籤的方式管理資料資產

隨著資料在企業內分布得越來越鬆散,要實現資料使用者所使用的自助方法,就要求在資料管理的過程中,增強以傳統it為驅動的方法。以眾包的方式完成資料管理。在自助服務的環境中,每一位使用者都有能力將其學科技能用來改善資料的質量和結構。通過合作的機制,業務分析人員可以幫助彼此實現共同的企業目標,即提供可信賴的資料資產。而機器學習也是通過分類演算法來實現資料域發掘自動化的一種方式。

4. 實現資料收集和轉換的自動化

資料的人工攝入和轉換是乙個複雜的多步驟流程。成功的企業會利用預置聯結器和高速資料攝入平台來將資料集載入和轉換到資料湖中。由此資料湖可以快速地容納新型別的資料,並擴大規模,適應不斷增長的引入資料量。自動化還提高了敏捷性所需的高速迭代性和靈活性,因為採用了自動化流程,系統可以快速做出變更並杜絕了出現錯誤的風險。

5. 利用資料驗證和資料評分發現資料質量問題

在資料湖中加入基於規則的資料驗證,並應用ai技術,就可以自動檢測和糾正不完整、不準確或者不一致的資料。提早檢測並修復這些異常現象,可以顯著地提公升商業見解的準確性和一致性。在將資料收集並轉換到資料湖的過程中,可以使用資料湖規則來配置和過濾資料。資料質量評分板和儀錶盤有助於提高可視性,並幫助團隊成員了解應該將精力放在何處。

6. 讓人工智慧和機器學習技術完成資料探勘、資料安全和資料管理工作

利用人工智慧技術在非結構化的資料中發掘資料結構,然後將這一成果自動載入其他相似的、非結構化的資料,最終便可以極大地提高原本相當耗時的任務效率。基於機器學習的方法可以主動監視並檢測企業內的所有資料,從而確保最大程度地保護資料,確保合規。此外,通過全方位地了解資料資產,可以由此生成乙個所有資料資產的智慧型目錄,並推斷出資料資產之間的關係。像業務分析人員這樣的資料使用者隨後可以使用該目錄來發現可能感興趣的新資料資產,事實上,一些目錄甚至可以基於機器學習技術來推薦資料資產。

7. 為由多個不同部門組合而成的企業設計乙個單一可信**

遵循協同定位的原則,是將資料湖優勢最大化的關鍵。企業需要搭建有限數量的大規模資料湖環境,並且圍繞關鍵的業務領域進行全方位的組織。此外,在資料湖管理中充分利用資料分享、資料標籤和專案工作區,可以推動資料科學家和分析人員開展必要的合作。資料使用者應當在分析工作中將彼此視為團隊成員,一位分析人員在資料湖中完成工作後,可將其發布並分享給另外一位分析人員來使用。

8. 追求流程標準化並推動建立一致的架構

隨著需求不斷增加,標準化的缺失會持續破壞資料湖的效用,因為這樣的環境不適用於擴充套件。標準化和一致性是資料湖實現長期擴充套件的關鍵。搭建標準的流程和一致的架構,能保障資料科學家和業務分析人員專注於創新和分析,而不是資料管理工作。

9. 制定政策、分類和分級標準,從而讓所有團隊保持一致

通過制定標準的流程、分類標準和術語表,可以確保專案團隊中的每乙個人遵循相同的標準。在流程中提早設立簡單的程式,從而確定關鍵的資料資產是什麼。如何管理和應用這些資料資產,便可以使團隊避免煩惱和沮喪感。制定標準的分類標準和政策,可以從根本上簡化合規中的審計和衍生跟蹤問題,讓您始終能夠知曉資料的出處,並主動保護敏感資料。

作為行業內最完整的以資料驅動的數字轉型端到端整合解決方案,informatica智慧型資料湖管理能夠讓企業充分挖掘大資料的潛能,通過顛覆智慧型市場的創新技術,更靈活、更快速地發現新的成長機會。基於informatica所獨有的元資料驅動人工智慧技術,即claire™ 引擎,企業可以系統地發現任何資料,挖掘重要的資料關係,在合適的時間為合適的人員快速準備並分享合適的資料,並最終從中提取更創新、更及時、更契合的個性化資料。

做好eCosway的三大要點

如果不是這樣作,你一定賺不到高收入!做好 ecosway 的三大要點 我們團隊發展速度非常快,也就是公司贈送的 ev佔了 80 重複消費大概是 20 是個不錯的比例,而在馬來西亞與台灣,開設很多店鋪的地區,贈送業績與消費業績各佔一半,相信中國開店後,消費業績應該能佔 50 以上的!團隊發展快速,領導...

寫好C程式的10 大要點

要寫好c語言程式,最重要的當然是把要解決的問題分析清楚,設計好解決問題的方案和通過計算實現求解的過程,對問題的求解過程進行科學的結構化的分解。在此基礎上進一步考慮如何寫程式的時候,下面的建議可能有所幫助。這些建議中有些是一般性的,不僅僅對c語言程式設計有效 也有些是特別針對c語言程式設計的。這個表還...

寫好C程式的10 大要點

寫好c程式的10 大要點 要寫好c語言程式,最重要的當然是把要解決的問題分析清楚,設計好解決問題的方案和通過計算實現求解的過程,對問題的求解過程進行科學的結構化的分解。在此基礎上進一步考慮如何寫程式的時候,下面的建議可能有所幫助。這些建議中有些是一般性的,不僅僅對c語言程式設計有效 也有些是特別針對...