合理建立Hadoop資料庫的7個步驟

2021-09-29 19:09:49 字數 1624 閱讀 5549

資料湖的概念起源於大資料的出現——且資料已成為企業的核心資產,hadoop則是作為儲存和管理資料的平台而出現。但是,盲目地投入hadoop資料湖建設並不一定會使您的企業進入大資料時代——至少不是以一種成功的方式。

在將各種形狀和大小的資料資產以非統一方式匯入hadoop環境或另乙個大資料儲存庫的情況下,尤其如此。這種無序的方法會帶來一些挑戰和問題,這可能會成為使用資料湖來支援大資料分析應用程式的一大阻礙。

例如,您可能無法記錄哪些資料物件儲存在資料湖中,或紀錄其**和出處。這使得資料科學家和其他分析人員很難找到分布在hadoop集群中的相關資料,也難以使資料管理者識別誰可以訪問特定資料集,並確定其訪問許可權級別。

如果您沒有乙個良好的管理流程,組織資料並將相似的資料物件「桶裝」在一起以幫助簡化訪問和分析也將是乙個挑戰。

這些問題都與資料湖或底層環境的物理架構無關,無論是hadoop分布式檔案系統還是像amazon ****** storage service這樣的雲物件儲存——或這些技術的組合,每種技術包含不同的型別資料。相反,成功實施資料湖的最大障礙來自對資料管理的規劃和監督不足。

合理建立hadoop資料庫的7個步驟

處理hadoop資料:做需要做的事

好的一點是,這些挑戰很容易克服。以下是解決和避免這些問題的七個步驟:

1、建立資料分類方法。在資料湖中對資料物件進行組織取決於其分類方式。在分類中需要確定資料的關鍵維度,例如資料型別、內容、使用方案、可能的使用者組和資料敏感性。後者涉及保護個人和公司資料,例如保護有關客戶的個人身份資訊,或者保護智財權。

2、設計適當的資料架構。應用定義好的分類方法來指導如何在hadoop環境中組織資料。最終的計畫應包括諸如用於資料儲存的檔案層次結構、檔案和資料夾命名約定、用於不同資料集的訪問方法和控制項、以及用於指導資料分發的機制之類的內容。

4、標準化資料訪問過程。有效使用儲存在hadoop資料湖中的資料集所面臨的困難,通常源於不同分析團隊使用多種資料訪問方法,而且其中許多未記錄。因此,建立乙個通用而直接的api可以簡化資料訪問,並最終允許更多的使用者利用資料。

合理建立hadoop資料庫的7個步驟

5、開發可搜尋的資料目錄。有效資料訪問和使用面臨的乙個更隱蔽的障礙是,除了有關資料沿襲、質量和流通的資訊外,潛在使用者不知道資料湖中的內容以及hadoop環境中不同資料集的位置。協作資料目錄允許將有關每個資料資產的前面這些以及其他詳細資訊記錄在案。例如,它抓取結構和語義元資料、出處和親屬關係記錄、訪問許可權資訊等等。資料目錄還為使用者組提供了乙個論壇,以共享有關使用資料的經驗,問題和建議。

6、實施足夠的資料保護。除了it安全性的常規考慮(例如網路邊界防禦和基於角色的訪問控制)之外,還需要利用其他方法來防止暴露資料湖中包含的敏感資訊。這包括資料加密和資料遮蔽之類的機制,以及自動監視,以生成有關未經授權的資料訪問或傳輸的警報。

7、在內部提高資料意識。最後,請確保您的資料湖使用者意識到有必要主動管理其包含的資料資產。教會他們如何使用資料目錄查詢可用資料集,以及如何配置分析應用程式以訪問他們所需的資料。同時,給他們留下深刻印象的是正確使用資料和增強資料質量的重要性。

為了實現使資料湖可訪問和可用的最終目標,在將資料遷移到hadoop環境或基於雲的大資料架構之前,制定乙個精心設計的資料處理計畫至關重要。採取本文中概述的步驟將有助於簡化資料湖的實施過程。更重要的是,規劃、組織和治理的正確組合將有助於最大程度地提高組織在資料湖中的投資,並降低部署失敗的風險。

正確合理的建立MYSQL資料庫索引

普通mysql執行,資料量和訪問量不大的話,是足夠快的,但是當資料量和訪問量劇增的時候,那麼就會明顯發現mysql很慢,甚至down掉,那麼就要考慮優化我們的mysql了。其中優化mysql的乙個重要環節就是為資料庫建立正確合理的索引。如果沒有索引,執行查詢時mysql必須從第乙個記錄開始掃瞄整個表...

正確合理的建立MYSQL資料庫索引

在資料庫表中,對欄位建立索引可以大大提高查詢速度。假如我們建立了乙個 mytable表 create table mytable id int not null,username varchar 16 not null 我們隨機向裡面插入了10000條記錄,其中有一條 5555,admin。在查詢u...

資料庫合理設計

1.資料庫的設計 盡量把資料庫設計的更小的佔磁碟空間.1 盡可能使用更小的整數型別.mediumint就比int更合適 2 盡可能的定義欄位為not null,除非這個字段需要null.3 如果沒有用到變長字段的話比如varchar,那就採用固定大小的紀錄格式比如char.4 表的主索引應該盡可能的...